基于部件的文本相似度计算  被引量:4

Text similarity computing based on components

在线阅读下载全文

作  者:程玉柱[1,2] 邬书跃[1] 

机构地区:[1]湖南涉外经济学院信息与电子工程系 [2]湖南大学软件学院,湖南长沙410082

出  处:《计算机工程与设计》2006年第18期3444-3446,共3页Computer Engineering and Design

摘  要:相似度的计算在信息检索及文档复制检测等领域具有广泛的应用前景。研究了文本相似度的计算方法,以汉字数学表达式理论为基础,提出了一种新的文本部件粒度表示方法,根据部件频次建立文本特征向量空间模型,并在此模型基础上给出了相应的文本相似度计算公式及算法,用于计算两文本之间的相似度。实验结果表明,该算法与现有典型的相似度计算方法相比,具有实现精度高、计算简便等优点。Text similarity counting has been widely used in several fields, for example, the field of copy detection and information retrieval, etc. With the study of text similarity computing, a novel reconstruction method and the corresponding similarity measuring algorithm based on the thought of mathematical expression is presented. At first, the texts are expressed in the aspect of component granularities; and then, the text attribute vector space model is established according to the statistic of component frequency; after that, the similarity is obtained. The experimental result showed that the algorithm is available.

关 键 词:信息检索 复制检测 相似度 自然语言处理 部件 

分 类 号:TP391[自动化与计算机技术—计算机应用技术]

 

参考文献:

正在载入数据...

 

二级参考文献:

正在载入数据...

 

耦合文献:

正在载入数据...

 

引证文献:

正在载入数据...

 

二级引证文献:

正在载入数据...

 

同被引文献:

正在载入数据...

 

相关期刊文献:

正在载入数据...

相关的主题
相关的作者对象
相关的机构对象