检索规则说明:AND代表“并且”;OR代表“或者”;NOT代表“不包含”;(注意必须大写,运算符两边需空一格)
检 索 范 例 :范例一: (K=图书馆学 OR K=情报学) AND A=范并思 范例二:J=计算机应用与软件 AND (U=C++ OR U=Basic) NOT M=Visual
作 者:吴小龙 曹存根[1] WU Xiaolong;CAO Cungen(Key Laboratory of Intelligent Information Processing, Institute of Computing Technology, Chinese Academy of Sciences, Beijing 100190, China;University of Chinese Academy of Sciences, Beijing 100049, China)
机构地区:[1]中国科学院计算技术研究所智能信息处理重点实验室,北京100190 [2]中国科学院大学,北京100049
出 处:《中文信息学报》2019年第4期75-84,共10页Journal of Chinese Information Processing
基 金:国家重点研发计划(2017YFC1700302)
摘 要:Web表格知识抽取是一种重要的获取高质量知识的途径,在知识图谱、网页挖掘等方面具有广泛的研究意义与应用价值。传统的Web表格知识抽取方法主要依赖于良好的表格结构和足够的先验知识,但在复杂的表格结构以及先验知识不足等情形下难以奏效。针对这类方法的问题,该文通过充分利用表格自身的结构特点,提出了一套可面向大规模数据的基于等价压缩快速聚类的Web表格知识抽取方法,以无监督的聚类方式获得相似形式结构的表格,从而推测其语义结构以抽取知识。实验结果表明,基于等价压缩的快速聚类算法在保持同水平的聚类准确率的前提下,在时间性能上相比传统方法有大幅度的提升,5 000个表格的聚类时间由72小时缩短为20分钟,且在表格聚类后利用表格模板所抽取的知识三元组的准确率也达到了令人满意的结果。Extracting knowledge from Web tables is an important way to obtain high-quality knowledge,which is of substantial significance in knowledge graph,Web mining,etc.In contrast to classical methods defected in depending on a good table structure or enough pre-existing knowledge,we propose a novel method of Web table knowledge extraction based on fast clustering with equivalent compression for large-scale Web tables.By making full use of the structural characteristics of tables,we obtain tables with similar structures in an unsupervised clustering manner,and then infer the semantic structure of similar tables for knowledge extraction.The results show that the proposed clustering algorithm decreases the clustering time of 5,000 tables from 72 hours to 20 minutes at the same level of clustering accuracy,and the accuracy of the knowledge triples obtained by table templates after table clustering indicates that our method is highly satisfactory.
关 键 词:WEB表格 知识抽取 表格聚类 等价压缩 快速聚类
分 类 号:TP391[自动化与计算机技术—计算机应用技术]
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在链接到云南高校图书馆文献保障联盟下载...
云南高校图书馆联盟文献共享服务平台 版权所有©
您的IP:216.73.216.117