基于VSM的文本相似度计算的研究  被引量:101

Similarity computing of documents based on VSM

在线阅读下载全文

作  者:郭庆琳[1,2] 李艳梅[1] 唐琦[1] 

机构地区:[1]华北电力大学计算机科学与技术学院,北京102206 [2]北京大学计算机系,北京100871

出  处:《计算机应用研究》2008年第11期3256-3258,共3页Application Research of Computers

基  金:国家自然科学基金资助项目(90412010,70572090);NSCF(60573166);华北电力大学博士学位教师科研基金资助项目(H0585)

摘  要:文本相似度的计算作为其他文本信息处理的基础和关键,其计算准确率和效率直接影响其他文本信息处理的结果。提出改进的DF算法和TD-IDF算法,一方面利用了DF算法具有线性的时间复杂度,比较适合大规模文本处理的特点,并通过适当增加关键词的方法,弥补了其对个别有用信息错误过滤的不足;另一方面,利用特征项在特征选择阶段的权重对TD-IDF方法进行加权处理,在不增加开销的情况下扩大了文档集的规模,还提高了相似度计算的精确度。The precision and efficiency of the computing of documents similarity is the foundation and key of other documents process. This paper improved the DF and TF-IDF arithmetic. In this way, DF's time complexity was linearity that suited the mass documents process, and could make up the fault that exceptional useful characters might be deleted. Also, it did a mend On the TF-IDF arithmetic to improve the precision of documents similarity.

关 键 词:文本相似度 特征选择 词频—逆文档频率法 向量空间模型 

分 类 号:TP391[自动化与计算机技术—计算机应用技术]

 

参考文献:

正在载入数据...

 

二级参考文献:

正在载入数据...

 

耦合文献:

正在载入数据...

 

引证文献:

正在载入数据...

 

二级引证文献:

正在载入数据...

 

同被引文献:

正在载入数据...

 

相关期刊文献:

正在载入数据...

相关的主题
相关的作者对象
相关的机构对象