基于模板的Web信息自动提取方法  被引量:10

Template-based information automatic extraction of Web

在线阅读下载全文

作  者:郑长松[1] 傅彦[1] 佘莉[1] 

机构地区:[1]电子科技大学计算机工程学院数据挖掘实验室,成都610054

出  处:《计算机应用研究》2009年第2期570-572,582,共4页Application Research of Computers

基  金:国家"863"计划资助项目(07AA01Z440);国家"242"信息安全计划资助项目(2007B27)

摘  要:为了解决传统Web信息提取过程中准确率和效率相矛盾的问题,提出了一种基于模板与机器自动识别相结合的Web信息自动提取方法。该方法先利用一组启发式规则自动识别HTML文本中不同属性信息之间的分隔符,再把它们配置到模板中,然后根据模板分析相同类型的网页,最后以话题线索的方式存储。实验结果表明,与传统的Web信息提取方法相比,本方法能够处理多种结构类型的网页,同时能够在很大程度上提高准确率、召回率和效率;并且可以在不需要修改算法的情况下根据用户需求动态提取相关信息,满足各方面研究的需要。In order to deal with the contradiction between accuracy and efficiency in the traditional Web information extraction,proposed one method to automatically extract Web information,which was based on the combination of template and machine automatic diagnosis.First,used a set of heuristic rules of automatic diagnosis to detect separating characters between different attributes in HTML text,and deployed those characters to the template,then based on the template analyzed Web page of the same kind,and finally s...

关 键 词:信息提取 模板化 自动识别 分隔标记 结构化 

分 类 号:TP393.09[自动化与计算机技术—计算机应用技术]

 

参考文献:

正在载入数据...

 

二级参考文献:

正在载入数据...

 

耦合文献:

正在载入数据...

 

引证文献:

正在载入数据...

 

二级引证文献:

正在载入数据...

 

同被引文献:

正在载入数据...

 

相关期刊文献:

正在载入数据...

相关的主题
相关的作者对象
相关的机构对象