基于主题词语义分词与距离的去重算法  被引量:1

在线阅读下载全文

作  者:陈亚峰 郭一帆[2] 王峥[3] 

机构地区:[1]河南省轻工业学校,河南郑州450000 [2]河南建筑职业技术学院,河南郑州450000 [3]国家电网郑州供电公司信息通信分公司,河南郑州450006

出  处:《中国科技纵横》2014年第15期28-28,30,共2页China Science & Technology Overview

摘  要:对主题网页去重技术进行了综述,结合已有算法的缺点,提出了一种基于主题词语义与距离的网页去重算法。该方法通过对用户输入的关键词进行语义标注后分词检索,计算分词子集在网页文本中的距离,来判断网页与主题的相关度以及网页之间的相似度。同时避开了网页文本向量空间维数大的不足,在一定程度上考虑到了网页的语义信息。

关 键 词:网页去重 语义分词与距离 去重 

分 类 号:TP391[自动化与计算机技术—计算机应用技术]

 

参考文献:

正在载入数据...

 

二级参考文献:

正在载入数据...

 

耦合文献:

正在载入数据...

 

引证文献:

正在载入数据...

 

二级引证文献:

正在载入数据...

 

同被引文献:

正在载入数据...

 

相关期刊文献:

正在载入数据...

相关的主题
相关的作者对象
相关的机构对象