一种基于熵的文本相似性计算方法  被引量:13

Text-similarity method based on entropy

在线阅读下载全文

作  者:李圣文[1] 凌微[1] 龚君芳[1] 周长征[2] 

机构地区:[1]中国地质大学信息工程学院,武汉430074 [2]国网十堰供电公司,湖北十堰442000

出  处:《计算机应用研究》2016年第3期665-668,共4页Application Research of Computers

基  金:国家自然科学基金资助项目(61272470);中国地质大学(武汉)中央高校基本科研业务费专项资金资助项目(2012119039;2012119145)

摘  要:文本比较是求解两个文本间相似度的过程,文本间的相似度越高代表两个文本越趋于类似。传统的相似度算法主要从字符的角度度量文本的相似性,忽略了文本内多个共同文本串对于文本相似度的影响。针对此问题提出一种基于熵的相似度求解方法,在对文本间字符信息的提取基础上,建立共同子文本串度量维度,然后采用熵的方法进行相似度度量。实验表明,该方法具有更平滑的相似度曲线,从而验证了算法的有效性和准确性。Text comparison is the process to find similarity between the two texts,the higher similarity between the texts show the two texts tend to like. The traditional method was from the perspective of the similarity measure characters of the text,ignored the text similarity factor of the plural common text string within the text. To address this problem,this paper proposed a text- similarity method based on entropy. The method tried to extract common strings from texts,then established a common sub-measure dimensions,and calculated the similarity based on entropy. Experiments show that the method has a smoother similarity curve,so the algorithm is effective and accuracy.

关 键 词:文本相似性 字符串匹配 编辑距离算法 最长公共子序列 

分 类 号:TP391.1[自动化与计算机技术—计算机应用技术]

 

参考文献:

正在载入数据...

 

二级参考文献:

正在载入数据...

 

耦合文献:

正在载入数据...

 

引证文献:

正在载入数据...

 

二级引证文献:

正在载入数据...

 

同被引文献:

正在载入数据...

 

相关期刊文献:

正在载入数据...

相关的主题
相关的作者对象
相关的机构对象