基于Web的半结构化信息抽取技术研究  被引量:6

Study of semi-structured information retrival technology based on Web

在线阅读下载全文

作  者:张树瑜[1] 杜国宁[1] 朱仲英[1] 

机构地区:[1]上海交通大学自动化系,上海200030

出  处:《系统工程与电子技术》2004年第5期610-612,共3页Systems Engineering and Electronics

摘  要:对信息抽取技术的发展和趋势作了一定分析,并讨论了当前半结构化信息检索领域的先进抽取技术。从应用的角度提出一种新的半结构化信息获取方法。该方法包括网页分析过程、映射的自动生成和信息抽取过程。通过建立标记树来进行网页结构分析,利用实例路径归纳学习出用户需求信息的公共路径,将效用的抽取结果提交用户,减少了用户负担,提高了查全率和查准率,为进一步满足Web信息抽取提供了一种新的高效信息抽取工具。The development of information retrival technology and advanced information retrival technology is analyzed. A new methord of semi-structured information retrival is presented. The improved method includes the process of Web-page analysis, automatic map, information retrival. The Web-page structure analysis is made by using marked-tree, the common path of customer needed information is inductived by sample path. So the burden of customer is lessed and the check rate and accurate rate are improved, and an improved implement of Web information retrival is presented.

关 键 词:互联网 半结构化 标记树 自动映射 

分 类 号:TP393[自动化与计算机技术—计算机应用技术]

 

参考文献:

正在载入数据...

 

二级参考文献:

正在载入数据...

 

耦合文献:

正在载入数据...

 

引证文献:

正在载入数据...

 

二级引证文献:

正在载入数据...

 

同被引文献:

正在载入数据...

 

相关期刊文献:

正在载入数据...

相关的主题
相关的作者对象
相关的机构对象