基于词汇集聚的文档相关性计算  被引量:3

Document Relevance Calculation Based on Lexical Cohesion

在线阅读下载全文

作  者:赵玉茗[1] 徐志明[1] 王晓龙[1] 朱鲲鹏[1] 

机构地区:[1]哈尔滨工业大学计算机科学与技术学院,哈尔滨150001

出  处:《电子与信息学报》2008年第10期2512-2515,共4页Journal of Electronics & Information Technology

基  金:国家"863"计划项目(2006AA012197);国家自然科学基金重点项目(60435020)资助课题

摘  要:该文提出了一种基于词汇集聚的文档相关性计算方法。该方法以知网为知识库,依靠词汇集聚,将文档中存在语义关联的词语连接成链,计算各条词汇链权重,以词汇链为元素对文档进行形式化表示,最终利用文档的此种形式化表示进行相关匹配计算。该文在中图法分类的语料上,开展了文档相关性计算的实验,准确率达到了85.4%。实验结果表明,该方法在一定程度上描述了文档的语义信息,将文档间的相关比较从字符或词层面的直接比较提升到近似概念层次的比较,是一种计算文档间相关性的有效方法。A new document relevance calculating method based on lexical cohesion is presented in this paper. The main principle is: documents are formalized with lexicon chains which are constructed by extracting semantic-relative word clusters according to the lexicon cohesion principle under the help of semantic dictionary HowNet; then weight of each lexical chain is evaluated; finally relevance of documents is calculated with their representations. Experiments are conducted on corpus of Chinese Library Classification, and precision about 85.4% is achieved. The experimental results show that the method describes the semantic feature of documents to a certain extent, and it is an effective method for relevance calculating of documents.

关 键 词:词汇集聚 文档相关性 向量空间模型 

分 类 号:TP391[自动化与计算机技术—计算机应用技术]

 

参考文献:

正在载入数据...

 

二级参考文献:

正在载入数据...

 

耦合文献:

正在载入数据...

 

引证文献:

正在载入数据...

 

二级引证文献:

正在载入数据...

 

同被引文献:

正在载入数据...

 

相关期刊文献:

正在载入数据...

相关的主题
相关的作者对象
相关的机构对象