检索规则说明:AND代表“并且”;OR代表“或者”;NOT代表“不包含”;(注意必须大写,运算符两边需空一格)
检 索 范 例 :范例一: (K=图书馆学 OR K=情报学) AND A=范并思 范例二:J=计算机应用与软件 AND (U=C++ OR U=Basic) NOT M=Visual
作 者:贺晟[1] 程家兴[1] 王为为[1] 蔡欣宝[2]
机构地区:[1]安徽大学计算智能与信号处理教育部重点实验室,安徽合肥230039 [2]苏州大学智能信息处理及应用研究所,江苏苏州215006
出 处:《计算机应用与软件》2010年第12期12-14,54,共4页Computer Applications and Software
基 金:国家自然科学基金(60273043);安徽大学研究生创新基金(20073053)
摘 要:针对载有结构化数据的网页特点,提出了一种新的有效字段发现策略,据此设计了一个基于学习的自动去重方法。对样本网页集进行聚类分析并生成每类网页的包装器,识别出包装器中的有效数据字段;对有效数据字段进行映射,通过计算有效数据字段内容的相似度来判断网页是否重复。实验证明该方法对结构化Web数据的去重有很好的召回率和准确率。In this paper we present a new strategy of discovering valid data fields in light of the characteristic of webpage with structured data,and design a learning-based automatic duplication deletion method according to it.Sample webpage set is clustered and analysed and the wrappers of each kind of webpages are generated,and valid data fields in the wrappers are identified and then mapped.Whether the webpages has duplicate or not is determined by calculating the similarity of valid data fields’ content.Experiments indicate that this deletion approach for duplicate structural web data has a good recall rate and accuracy.
分 类 号:TP311.13[自动化与计算机技术—计算机软件与理论]
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在链接到云南高校图书馆文献保障联盟下载...
云南高校图书馆联盟文献共享服务平台 版权所有©
您的IP:216.73.216.221