检索规则说明:AND代表“并且”;OR代表“或者”;NOT代表“不包含”;(注意必须大写,运算符两边需空一格)
检 索 范 例 :范例一: (K=图书馆学 OR K=情报学) AND A=范并思 范例二:J=计算机应用与软件 AND (U=C++ OR U=Basic) NOT M=Visual
机构地区:[1]湖南涉外经济学院信息与电子工程系 [2]湖南大学软件学院,湖南长沙410082
出 处:《计算机工程与设计》2006年第18期3444-3446,共3页Computer Engineering and Design
摘 要:相似度的计算在信息检索及文档复制检测等领域具有广泛的应用前景。研究了文本相似度的计算方法,以汉字数学表达式理论为基础,提出了一种新的文本部件粒度表示方法,根据部件频次建立文本特征向量空间模型,并在此模型基础上给出了相应的文本相似度计算公式及算法,用于计算两文本之间的相似度。实验结果表明,该算法与现有典型的相似度计算方法相比,具有实现精度高、计算简便等优点。Text similarity counting has been widely used in several fields, for example, the field of copy detection and information retrieval, etc. With the study of text similarity computing, a novel reconstruction method and the corresponding similarity measuring algorithm based on the thought of mathematical expression is presented. At first, the texts are expressed in the aspect of component granularities; and then, the text attribute vector space model is established according to the statistic of component frequency; after that, the similarity is obtained. The experimental result showed that the algorithm is available.
分 类 号:TP391[自动化与计算机技术—计算机应用技术]
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在链接到云南高校图书馆文献保障联盟下载...
云南高校图书馆联盟文献共享服务平台 版权所有©
您的IP:216.73.216.30