基于多向量和实体模糊匹配的话题关联识别  被引量:5

Story Link Detection Based on Multi-vector Model and Entity Fuzzy Matching

在线阅读下载全文

作  者:张晓艳[1] 王挺[1] 陈火旺[1] 

机构地区:[1]国防科技大学计算机学院,湖南长沙410073

出  处:《中文信息学报》2008年第1期9-14,共6页Journal of Chinese Information Processing

基  金:国家自然科学基金资助项目(60403050);新世纪优秀人才支持计划资助项目(NCET-06-0926)

摘  要:本文在对新闻报道理论分析及实验验证的基础上,提出一种多向量表示模型,使其在尽量不丢失信息的情况下,对特征集合尽可能细地划分。基于该模型,本文设计了一种模糊匹配的方法用于计算命名实体子向量之间的关联度,它们和多个向量相似度一起用支持向量机进行整合,形成报道模型间的相似度。本文选用TDT4中文语料作为测试语料,将上述模型及模糊匹配技术用于话题关联识别。实验表明,多向量模型能够改进话题关联识别的性能,模糊匹配技术也在一定程度上弥补了精确匹配带来的性能损失。Based on the analyses of news stories and the experimental verification, this paper introduces a multi vector model for story representation. The model represents the feature set as detail as possible. A fuzzy matching method is proposed to compute the relatedness between two named entity sub-vectors in the multi-vector model. To measure the similarity of the stories, all the {eatures together with the named entity relatedness are integrated by Support Vector Machine (SVM). The proposed methods have been tested on TDT4 Chinese corpus for story link detection. The experiment results indicate that story link detection based on multi-vector model can improve the performance, and the relation information generated by fuzzy matching can contribute to the improvement.

关 键 词:计算机应用 中文信息处理 话题关联识别 多向量表示模型 命名实体模糊匹配 

分 类 号:TP391[自动化与计算机技术—计算机应用技术]

 

参考文献:

正在载入数据...

 

二级参考文献:

正在载入数据...

 

耦合文献:

正在载入数据...

 

引证文献:

正在载入数据...

 

二级引证文献:

正在载入数据...

 

同被引文献:

正在载入数据...

 

相关期刊文献:

正在载入数据...

相关的主题
相关的作者对象
相关的机构对象