检索规则说明:AND代表“并且”;OR代表“或者”;NOT代表“不包含”;(注意必须大写,运算符两边需空一格)
检 索 范 例 :范例一: (K=图书馆学 OR K=情报学) AND A=范并思 范例二:J=计算机应用与软件 AND (U=C++ OR U=Basic) NOT M=Visual
作 者:庞观松[1] 蒋盛益[2] 张黎莎[2] 区雄发[2] 赖旭明[2]
机构地区:[1]广东外语外贸大学国际工商管理学院,广州510006 [2]广东外语外贸大学信息学院,广州510006
出 处:《情报学报》2011年第5期464-470,共7页Journal of the China Society for Scientific and Technical Information
基 金:国家自然科学基金项目(60673191); 广东省自然科学基金项目(9151026005000002); 广东省高等学校自然科学研究重点项目(06Z012)
摘 要:为了便于用户浏览搜索引擎返回结果,本文提出了一种基于TFIDF新的文本相似度计算方法,并提出使用具有近似线性时间复杂度的增量聚类算法对文本进行多层聚类的策略。同时,提出了一种从多文本中提取关键词的策略:提取簇中的名词或名词短语作为候选关键词,综合考虑每个候选关键词的词频、出现位置、长度和文本长度设置加权函数来计算其权重,不需要人工干预以及语料库的协助,自动提取权重最大的候选关键词作为类别关键词。在收集的百度、ODP语料以及公开测试的实验结果表明本文提出方法的有效性。In order to facilitate the browse of the search results produced by search engines,this paper proposed a TFIDF-based new method to calculate the similarity of the documents and Web search results multi-level clustering by using one-pass clustering algorithm with linear time complexity.At the same time,we proposed a strategy to extract cluster keyword from multi-texts:selected noun or noun phrase as candidate cluster keywords,and took term frequency,the position of term occurring,the length of term and text into consideration to set a weighting function to compute every words weights of the search results,then automatically extracted the weightiest candidate keyword for each cluster generated by multi-level clustering without the intervene of human and the assistance of corpus.Experimental results on Baidu,ODP corpus and user investigation show the efficient and acceptance of our algorithm.
分 类 号:TP311.13[自动化与计算机技术—计算机软件与理论]
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在链接到云南高校图书馆文献保障联盟下载...
云南高校图书馆联盟文献共享服务平台 版权所有©
您的IP:216.73.216.15