基于DTA的信息抽取技术研究  

ON INFORMATION EXTRACTION TECHNIQUE BASED ON DTA

在线阅读下载全文

作  者:谭鹏许[1] 张来顺[1] 滕婕[2] 

机构地区:[1]解放军信息工程大学电子技术学院,河南郑州450004 [2]华东师范大学,上海200241

出  处:《计算机应用与软件》2009年第12期228-230,250,共4页Computer Applications and Software

摘  要:针对现有基于网页结构信息抽取技术的不足,提出一种基于确定性树自动机DTA(deterministic tree automaton)的信息抽取技术。其核心思想是通过将HTML文档转换成二叉树的形式,然后依据树自动机对待抽取网页的接收和拒绝状态进行数据的抽取。该方法充分利用了HTML文档的树状结构。依托树自动机将传统的以单一结构途径的信息抽取与文法推理两者相结合。经实验证明与同类抽取方法相比在准确率、召回率以及抽取所需时间上均有所提高。In light of the deficiency of existing information extraction techniques based on webpage structure, in this paper we propose an information extraction technique based on deterministic tree automata (DTA). The core idea of it is to transform the HTML document to binary tree, and then extract the data according to the acceptance and rejection state of DTA on its webpage extraction. The method makes the full use of tree structure of HTML documents and combines conventional information extraction in single structure route with grammar inference relying on DTA. Experimental results shows that the approach with DTA improves the precision, recall rate and time of extraction comparing with other similar extraction methods.

关 键 词:树自动机 信息抽取 HTML 

分 类 号:TP391[自动化与计算机技术—计算机应用技术] TP311.13[自动化与计算机技术—计算机科学与技术]

 

参考文献:

正在载入数据...

 

二级参考文献:

正在载入数据...

 

耦合文献:

正在载入数据...

 

引证文献:

正在载入数据...

 

二级引证文献:

正在载入数据...

 

同被引文献:

正在载入数据...

 

相关期刊文献:

正在载入数据...

相关的主题
相关的作者对象
相关的机构对象