基于距离度量的实体识别算法  被引量:1

Entity Resolution Algorithm based on Distance Metirc

在线阅读下载全文

作  者:黎玲利[1] 高宏[1] 

机构地区:[1]哈尔滨工业大学计算机科学与技术学院,哈尔滨150001

出  处:《智能计算机与应用》2014年第6期61-63,共3页Intelligent Computer and Applications

基  金:国家自然科学基金(61003046;61111130189;60933001);国家高技术研究发展计划(863)(2012AA011004);中国博士后科学基金(20090450126;201003447);教育部博士点基金(20102302120054)

摘  要:传统的实体识别中,往往是利用字符串相似性函数来计算元组对在每个属性值上的相似度从而来判断其总的相似性(例如,元组对的相似性等于每个属性值上的相似度的加权求和)。然而这一类相似性测度不能够反映属性值内部不同的词在元组对相似性计算中的不同重要性。由于不能区分哪些词对元组对匹配更重要,就导致仍然存在某些匹配的元组相似性不高,而不匹配的元组相似性高的情况,故很难将匹配元组对和不匹配元组对有效区分开。为了解决这个问题,提出了以词为特征的距离度量函数,设计了基于词特征的距离度量学习算法,和基于距离度量的实体识别算法。扩展性实验对所提出的算法的有效性进行了验证。Traditional entity resolution methods always use string- based similarity functions to compute the similarities of attribute -values between records and then compute the similarity between records based on these similarities, i. e. , the similarity between records is the weighted sum of the similarities of all the attribute - values. However, these metrics cannot represent the importance of each word in attribute - values. Since they cannot distinguish which word is more important for record matching, there might be some matching records have low similarities while some non- matching records have high similarities. Therefore it is difficult to distinguish the matchings and the non -matchings effectively. To address this prob- lem, the paper presents a distance metric based on word - feature, and proposes a distance metric learning algorithm and an entity resolution method based on the metric. Extensive experiments have verified the effectiveness of the proposed algo- rithms.

关 键 词:实体识别 相似性测度 距离度量 度量学习 

分 类 号:TP704.25[自动化与计算机技术—检测技术与自动化装置]

 

参考文献:

正在载入数据...

 

二级参考文献:

正在载入数据...

 

耦合文献:

正在载入数据...

 

引证文献:

正在载入数据...

 

二级引证文献:

正在载入数据...

 

同被引文献:

正在载入数据...

 

相关期刊文献:

正在载入数据...

相关的主题
相关的作者对象
相关的机构对象