Web信息抽取中基于结点权重的树编辑距离匹配法研究  被引量:2

Research on Node-Weighted Tree Edit Distance Matching in Web Information Extraction

在线阅读下载全文

作  者:朱南丽[1] 朱晓鸣[2] 叶五梅[1] 

机构地区:[1]宁波工程学院电子与信息工程学院,浙江宁波315010 [2]浙江工商职业技术学院信息工程学院

出  处:《计算机时代》2010年第3期49-51,共3页Computer Era

摘  要:提出一种改进的树匹配算法,通过考量HTML特性,对树编辑距离方法进行改进,根据不同HTML树结点在浏览器中所显示的相关数据的不同权重赋以不同的权重值。算法由HTML数据对象构造具有结点权重的HTML树,模式识别通过取得两棵构造树的最大映射值达成。通过基于商用网站的实验对算法有效性进行了证实。An enhanced tree matching algorithm is proposed, which improves the tree edit distance method by considering HTML features, assigns different values to HTML tree nodes according to their weights for displaying the relevant data in browser. The algorithm constructs the node-weighted HTML tree from HTML data objects and the pattern recognition is done by obtaining the maximum mapping value of two constructed trees. The effectiveness of the algorithm has been verified by the experiments based on commercial websitcs.

关 键 词:信息抽取 DOM 树编辑距离 模式识别 

分 类 号:TP301.6[自动化与计算机技术—计算机系统结构] TP392[自动化与计算机技术—计算机科学与技术]

 

参考文献:

正在载入数据...

 

二级参考文献:

正在载入数据...

 

耦合文献:

正在载入数据...

 

引证文献:

正在载入数据...

 

二级引证文献:

正在载入数据...

 

同被引文献:

正在载入数据...

 

相关期刊文献:

正在载入数据...

相关的主题
相关的作者对象
相关的机构对象