检索规则说明:AND代表“并且”;OR代表“或者”;NOT代表“不包含”;(注意必须大写,运算符两边需空一格)
检 索 范 例 :范例一: (K=图书馆学 OR K=情报学) AND A=范并思 范例二:J=计算机应用与软件 AND (U=C++ OR U=Basic) NOT M=Visual
机构地区:[1]哈尔滨工业大学计算机科学与技术学院,哈尔滨150001
出 处:《智能计算机与应用》2014年第6期61-63,共3页Intelligent Computer and Applications
基 金:国家自然科学基金(61003046;61111130189;60933001);国家高技术研究发展计划(863)(2012AA011004);中国博士后科学基金(20090450126;201003447);教育部博士点基金(20102302120054)
摘 要:传统的实体识别中,往往是利用字符串相似性函数来计算元组对在每个属性值上的相似度从而来判断其总的相似性(例如,元组对的相似性等于每个属性值上的相似度的加权求和)。然而这一类相似性测度不能够反映属性值内部不同的词在元组对相似性计算中的不同重要性。由于不能区分哪些词对元组对匹配更重要,就导致仍然存在某些匹配的元组相似性不高,而不匹配的元组相似性高的情况,故很难将匹配元组对和不匹配元组对有效区分开。为了解决这个问题,提出了以词为特征的距离度量函数,设计了基于词特征的距离度量学习算法,和基于距离度量的实体识别算法。扩展性实验对所提出的算法的有效性进行了验证。Traditional entity resolution methods always use string- based similarity functions to compute the similarities of attribute -values between records and then compute the similarity between records based on these similarities, i. e. , the similarity between records is the weighted sum of the similarities of all the attribute - values. However, these metrics cannot represent the importance of each word in attribute - values. Since they cannot distinguish which word is more important for record matching, there might be some matching records have low similarities while some non- matching records have high similarities. Therefore it is difficult to distinguish the matchings and the non -matchings effectively. To address this prob- lem, the paper presents a distance metric based on word - feature, and proposes a distance metric learning algorithm and an entity resolution method based on the metric. Extensive experiments have verified the effectiveness of the proposed algo- rithms.
分 类 号:TP704.25[自动化与计算机技术—检测技术与自动化装置]
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在链接到云南高校图书馆文献保障联盟下载...
云南高校图书馆联盟文献共享服务平台 版权所有©
您的IP:216.73.216.229