检索规则说明:AND代表“并且”;OR代表“或者”;NOT代表“不包含”;(注意必须大写,运算符两边需空一格)
检 索 范 例 :范例一: (K=图书馆学 OR K=情报学) AND A=范并思 范例二:J=计算机应用与软件 AND (U=C++ OR U=Basic) NOT M=Visual
作 者:麻雪云[1] 肖诗斌[1,2] 王弘蔚[1,2] 施水才[1,2]
机构地区:[1]北京信息科技大学中文信息处理研究中心,北京100101 [2]北京拓尔思信息技术股份有限公司,北京100101
出 处:《计算机工程与应用》2009年第31期118-121,共4页Computer Engineering and Applications
基 金:国家高技术研究发展计划(863)No.2006AA010105;国家自然科学基金No.60772081;北京市属市管高校人才强教计划项目(No.PXM2007_014224_044677;No.PXM2007_014224_044676);北京市教委科技发展计划项目(No.KM200710772010)~~
摘 要:目前,搜索结果聚类方法大多数采用基于文档的方法,不能生成有意义的聚类标签。为了解决这个问题,提出一种基于关键名词短语聚类的中文搜索结果聚类方法,该方法将名词短语、相关搜索词作为候选聚类标签,利用C-Value算法、IDF值筛选标签,然后使用Chameleon算法将标签聚类,最后将搜索结果划分到最相关的聚类簇。实验证明,该方法把关键名词短语和相关搜索词作为聚类标签,有效地提高了标签的描述性,降低了聚类算法的时间复杂度。Nowadays,the conventional search result clustering methods employ the document-based approach and can not generate clusters with highly readable names.To solve the problem,based on key noun phrase clustering,this paper proposes a method for Chinese search result clustering.First is to extract key phrases from search results,and use the phrases of correlative search as addition.Second is a new label selecting criterion based on C-Value algorithm and the value of IDF.The third is clustering the labels by Chameleon algorithm.Finally,the search result classification has been perfermed in terms of the results of label clustering.The experiment shows that using key noun phrases and the phrases of correlative search as clustering labels can improve the description of labels and reduce the computation complexity of clustering algorithm.
关 键 词:搜索结果聚类 关键名词短语抽取 C-Value算法 CHAMELEON算法
分 类 号:TP391[自动化与计算机技术—计算机应用技术]
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在链接到云南高校图书馆文献保障联盟下载...
云南高校图书馆联盟文献共享服务平台 版权所有©
您的IP:216.73.216.13