基于BM25-IWF特征提取的改进Simhash算法  被引量:1

在线阅读下载全文

作  者:黄迎春[1] 王港 

机构地区:[1]沈阳理工大学信息科学与工程学院,辽宁沈阳110159

出  处:《移动信息》2021年第5期7-10,共4页MOBILE INFORMATION

基  金:辽宁省自然科学基金项目(项目编号:20180550216);沈阳理工大学大学生创新训练计划项目(项目编号:S202010144005)。

摘  要:传统的Simhash 网页去重是基于词频文档逆频率(TF-IDF)提取特征词的算法,存在会将部分停用词权重放大、文章长度影响特征词的权重以及同类语料库中特征词的权重被稀释的问题。基于此,文章提出了一种基于惩罚因子词语逆频率(BM25-IWF)的Simhash算法,计算权重时,加入惩罚因子限制词频数值过大,减小文档长度对权重的影响,然后使用词语逆频率来解决同类语料库中特征词的权重被稀释的问题。从哈工大语料库中随机挑选1000篇文档,改进的Simhash算法进行相似度判断的平均精确率达94.82%,平均召回率达90.69%。相较于传统的Simhash算法,改进算法的精确率和召回率更高,更能实现网页的精准去重。

关 键 词:网页去重 Simhash算法 BM25-IWF 特征提取 

分 类 号:TP311[自动化与计算机技术—计算机软件与理论]

 

参考文献:

正在载入数据...

 

二级参考文献:

正在载入数据...

 

耦合文献:

正在载入数据...

 

引证文献:

正在载入数据...

 

二级引证文献:

正在载入数据...

 

同被引文献:

正在载入数据...

 

相关期刊文献:

正在载入数据...

相关的主题
相关的作者对象
相关的机构对象