基于模板流程配置的Web信息抽取  被引量:5

Web Information Extraction Based on Template Flow Configuration

在线阅读下载全文

作  者:刘辉[1] 陈静玉[1] 徐学洲[1] 

机构地区:[1]西安电子科技大学软件工程研究所,西安710071

出  处:《计算机工程》2008年第20期55-57,共3页Computer Engineering

摘  要:针对Web信息抽取中存在的包装器构造复杂及抽取精度等问题,提出并实现了一种基于模板流程配置的Web信息抽取框架。将用户请求、访问和获取Web页面的动作进行分解,抽取其中的动作模式,并映射到流程配置模板中的节点。通过流程解析器对用户创建的流程配置XML描述文档进行解析,抽取感兴趣的信息。试验结果表明,系统可快速、准确地实现抽取。To solve the existing problems such as the complexity to constructing wrappers and extracting precision, a Web extraction framework based on template flow configuration is presented and accomplished. Decompose the actions of requiring, accessing and obtaining of users, and extract those action patterns, reflecting them into the flow configuration template as nodes. Flow interpreter will interpret the flow configuration description XML document which is created by users, and then extract the information which is interesting to them. Experimental result indicates that the framework can quickly and correctly realize the extraction.

关 键 词:WEB信息抽取 模板流程配置 包装器 框架 

分 类 号:TP393[自动化与计算机技术—计算机应用技术]

 

参考文献:

正在载入数据...

 

二级参考文献:

正在载入数据...

 

耦合文献:

正在载入数据...

 

引证文献:

正在载入数据...

 

二级引证文献:

正在载入数据...

 

同被引文献:

正在载入数据...

 

相关期刊文献:

正在载入数据...

相关的主题
相关的作者对象
相关的机构对象