基于知识图谱的Web信息抽取系统被引量：16

Web Information Extraction System Based on Knowledge Graph

机构地区：[1]上海电力学院经济与管理学院,上海200082 [2]复旦大学计算机科学技术学院,上海200433 [3]东华大学计算机科学与技术学院,上海201620

出　　处：《计算机工程》2017年第6期118-124,共7页Computer Engineering

基　　金：上海市科技创新行动计划基础研究项目(15JC1400900);上海市自然科学基金(13ZR1417700)

摘　　要：为实现多领域海量网页信息的有效抽取,以中文知识图谱CN-DBpedia为基础设计Web信息抽取系统。基于知识图谱对网页数据项进行自动标注,建立具有容错能力的包装器归纳框架,从包含错误的标注集中归纳学习出正确的包装器。实验结果表明,该系统的准确率和召回率均高于传统人工标注方法,可显著降低网页信息抽取过程中的人力成本,灵活运用于大规模、多领域的网页信息抽取任务。In order to effectively extract huge amounts of Web information in multiple fields, a Web information extraction system is designed based on Chinese knowledge graph, CN-DBpedia. Firstly,webpage data items with noise are automatically labeled based on knowledge graph. Then, correct wrappers are induced and learned from labeling sets with errors by a fault-tolerant wrapper induction framework. Experimental results demonstrate that,compared with traditional information extraction method by manual annotation, the proposed system has higher precision and recall rate. It can significantly reduce human participation during the extraction process and flexibly apply to large-scale webpage information extraction tasks in multiple fields.

关键词：知识图谱多领域 WEB信息抽取网页自动标注容错包装器归纳框架

分类号：TP18[自动化与计算机技术—控制理论与控制工程]

参考文献：

正在载入数据...

二级参考文献：

正在载入数据...

耦合文献：

正在载入数据...

引证文献：

正在载入数据...

二级引证文献：

正在载入数据...

同被引文献：

正在载入数据...

高级检索 检索式检索

时间限定

期刊范围

学科限定全选

高级检索 检索式检索

时间限定

期刊范围

学科限定全选

基于知识图谱的Web信息抽取系统被引量：16

我的收藏

参考文献：

二级参考文献：

耦合文献：

引证文献：

二级引证文献：

同被引文献：

相关期刊文献：

相关的主题

相关的作者对象

相关的机构对象

下载全文

高级检索检索式检索

时间限定

期刊范围

学科限定全选

高级检索 检索式检索

时间限定

期刊范围

学科限定全选

基于知识图谱的Web信息抽取系统 被引量：16

我的收藏

参考文献：

二级参考文献：

耦合文献：

引证文献：

二级引证文献：

同被引文献：

相关期刊文献：

相关的主题

相关的作者对象

相关的机构对象

下载全文

用户登录

高级检索检索式检索

基于知识图谱的Web信息抽取系统被引量：16