基于等价压缩快速聚类的Web表格知识抽取  被引量:1

Extracting Knowledge from Web Tables Based on Fast Clustering with Equivalent Compression

在线阅读下载全文

作  者:吴小龙 曹存根[1] WU Xiaolong;CAO Cungen(Key Laboratory of Intelligent Information Processing, Institute of Computing Technology, Chinese Academy of Sciences, Beijing 100190, China;University of Chinese Academy of Sciences, Beijing 100049, China)

机构地区:[1]中国科学院计算技术研究所智能信息处理重点实验室,北京100190 [2]中国科学院大学,北京100049

出  处:《中文信息学报》2019年第4期75-84,共10页Journal of Chinese Information Processing

基  金:国家重点研发计划(2017YFC1700302)

摘  要:Web表格知识抽取是一种重要的获取高质量知识的途径,在知识图谱、网页挖掘等方面具有广泛的研究意义与应用价值。传统的Web表格知识抽取方法主要依赖于良好的表格结构和足够的先验知识,但在复杂的表格结构以及先验知识不足等情形下难以奏效。针对这类方法的问题,该文通过充分利用表格自身的结构特点,提出了一套可面向大规模数据的基于等价压缩快速聚类的Web表格知识抽取方法,以无监督的聚类方式获得相似形式结构的表格,从而推测其语义结构以抽取知识。实验结果表明,基于等价压缩的快速聚类算法在保持同水平的聚类准确率的前提下,在时间性能上相比传统方法有大幅度的提升,5 000个表格的聚类时间由72小时缩短为20分钟,且在表格聚类后利用表格模板所抽取的知识三元组的准确率也达到了令人满意的结果。Extracting knowledge from Web tables is an important way to obtain high-quality knowledge,which is of substantial significance in knowledge graph,Web mining,etc.In contrast to classical methods defected in depending on a good table structure or enough pre-existing knowledge,we propose a novel method of Web table knowledge extraction based on fast clustering with equivalent compression for large-scale Web tables.By making full use of the structural characteristics of tables,we obtain tables with similar structures in an unsupervised clustering manner,and then infer the semantic structure of similar tables for knowledge extraction.The results show that the proposed clustering algorithm decreases the clustering time of 5,000 tables from 72 hours to 20 minutes at the same level of clustering accuracy,and the accuracy of the knowledge triples obtained by table templates after table clustering indicates that our method is highly satisfactory.

关 键 词:WEB表格 知识抽取 表格聚类 等价压缩 快速聚类 

分 类 号:TP391[自动化与计算机技术—计算机应用技术]

 

参考文献:

正在载入数据...

 

二级参考文献:

正在载入数据...

 

耦合文献:

正在载入数据...

 

引证文献:

正在载入数据...

 

二级引证文献:

正在载入数据...

 

同被引文献:

正在载入数据...

 

相关期刊文献:

正在载入数据...

相关的主题
相关的作者对象
相关的机构对象