结构化信息的去重方法  被引量:3

Duplication Deletion Method for Structural Information

在线阅读下载全文

作  者:李林[1] 刘桂峰[1] 赵朋朋[1] 崔志明[1] 

机构地区:[1]苏州大学智能信息处理及应用研究所,苏州215006

出  处:《计算机工程》2009年第3期23-25,28,共4页Computer Engineering

基  金:国家自然科学基金资助项目(60673092);2005年度教育部科研基金资助重点项目(205059);2006年江苏省"六大人才高峰"基金资助项目(06-E-037);2006年度江苏省软件和集成电路业专项基金资助项目([2006]221-41);2007年度江苏省研究生创新计划基金资助项目(CX07B-122z)

摘  要:针对载有结构化信息的网页,提出一种基于学习的去重方法。通过先期准备的样本定义分类器,根据分类器对页面中结构化信息的不同属性字段进行分类和距离计算,计算出整个信息对象和已分类样本信息的距离,以这些距离与阈值的大小关系判断该信息对象是否重复。This paper proposes a learning-based duplication deletion method for structural information on Web. It prepares a training set for producing classifier, classifies different attribute fields of structured information in pages, and computes the distances according to the classifier. The distance between the whole information object and classified sample information is computed, and whether the record is duplicate by comparing with threshold is judged.

关 键 词:相似性测度 去重 聚类 

分 类 号:TP391[自动化与计算机技术—计算机应用技术]

 

参考文献:

正在载入数据...

 

二级参考文献:

正在载入数据...

 

耦合文献:

正在载入数据...

 

引证文献:

正在载入数据...

 

二级引证文献:

正在载入数据...

 

同被引文献:

正在载入数据...

 

相关期刊文献:

正在载入数据...

相关的主题
相关的作者对象
相关的机构对象