检索规则说明:AND代表“并且”;OR代表“或者”;NOT代表“不包含”;(注意必须大写,运算符两边需空一格)
检 索 范 例 :范例一: (K=图书馆学 OR K=情报学) AND A=范并思 范例二:J=计算机应用与软件 AND (U=C++ OR U=Basic) NOT M=Visual
作 者:杨丹[1,2] 申德荣[2] 聂铁铮[2] 于戈[2] 寇月[2]
机构地区:[1]辽宁科技大学软件学院,辽宁鞍山114051 [2]东北大学信息科学与工程学院,沈阳110004
出 处:《小型微型计算机系统》2015年第3期418-423,共6页Journal of Chinese Computer Systems
基 金:国家自然科学基金项目(61003060)资助;中央高校基本科研业务费专项资金项目(N110404010;N120316001)资助
摘 要:数据空间是一个异构、动态的环境,具有随时间演化的特性.针对数据空间中随时间演化的、彼此间具有相互关联关系的大量异构实体,提出一个灵活的、基于演化的集合式实体识别框架TE-CER.TE-CER在实体识别过程中考虑时间信息和演化的影响,提出基于时间的blocking算法T-blocking和基于时间演化的聚类算法TE-Clustering.TE-Clustering聚类算法考虑了演化对实体相似度的影响,在相似度度量中引入属性演化系数和关联关系演化系数;在聚类过程中引入簇的时间约束.并且TE-CER提出基于识别顺序依赖图来确定集合式实体识别的识别顺序的策略,这样一种实体的识别结果可以用来后续另一种相关联实体的识别证据,以提高识别的准确率.在真实数据集上的大量实验结果表明所提出方法的有效性.The dataspace is a heterogeneous and dynamic environment with the characteristic of evolving with time. Aiming at large scale heterogeneous and associated entities evolving with time in dataspaces, a flexible evolution-based collective entity resolution (ER) framework TE-CER is proposed. TE-CER considers the evolution effect in the process of resolution, and proposes a time-based blocking algorithm T-blocking and evolution-based clustering algorithm TE-Clustering. TE-Clustering introduces attribute evolution co- efficient and relation evolution coefficient to the similarity measures, and introduces time-based constraints in the process of clustering. Moreover TE-CER leverages resolution sequence graph to decide the resolution sequence of collective ER such that the resolution re- sults of one entity type can be used as the resolution evidences of follow-up another entity type to improve resolution accuracy. Exten- sive experimental results on real world data sets show the effectiveness of the proposed approach.
分 类 号:TP311[自动化与计算机技术—计算机软件与理论]
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在链接到云南高校图书馆文献保障联盟下载...
云南高校图书馆联盟文献共享服务平台 版权所有©
您的IP:216.73.216.249