树编辑距离在Web信息抽取中的应用与实现  被引量:8

The Application and Implementation of Tree Edit Distance in Web Information Extraction

在线阅读下载全文

作  者:聂卉[1] 黄贵鹏[1] 

机构地区:[1]中山大学资讯管理系,广州510275

出  处:《现代图书情报技术》2010年第5期29-34,共6页New Technology of Library and Information Service

基  金:2008年度教育部人文社会科学研究项目"基于信息抽取的数字图书馆的知识获取研究"(项目编号:08JC870013);2009年度中山大学青年教师培育项目"智能化深度搜索引擎实现技术的研究"(项目编号:2000-3161101)的研究成果之一

摘  要:引入编辑距离的概念,探讨如何构造标签树,并利用标签树匹配算法来量化网页结构相似度。该算法被应用于Web信息抽取,通过URL相似度算法进行样本网页的粗聚类,进一步采用树的相似度匹配算法实现细聚类,从而获取模板网页。在模板网页的基础上,再次引入结构相似度算法并结合基于模板网页的抽取规则实现网页的自动化抽取。实验证明,该算法的引入能够有效提高包装器的抽取精度和半自动化能力。In this paper,the concept of edit distance is introduced, and the issues about how to construct a tag tree and calculate the similarity of two Web pages by using the tree - matching algorithm are discussed. Firstly, the pages are roughly clustered according to their URL similarities and further classified by tree - matching algorithm. Based on the model page obtained by clustering, Web information can be extracted automatically by using Web structure similarity algorithm jointed with extraction rules. The test is able to verify the feasibility and efficiency of the algorithm in system.

关 键 词:WEB信息抽取 树编辑距离 结构相似度 WEB聚类 标签树匹配算法 

分 类 号:TP393.09[自动化与计算机技术—计算机应用技术]

 

参考文献:

正在载入数据...

 

二级参考文献:

正在载入数据...

 

耦合文献:

正在载入数据...

 

引证文献:

正在载入数据...

 

二级引证文献:

正在载入数据...

 

同被引文献:

正在载入数据...

 

相关期刊文献:

正在载入数据...

相关的主题
相关的作者对象
相关的机构对象