检索规则说明:AND代表“并且”;OR代表“或者”;NOT代表“不包含”;(注意必须大写,运算符两边需空一格)
检 索 范 例 :范例一: (K=图书馆学 OR K=情报学) AND A=范并思 范例二:J=计算机应用与软件 AND (U=C++ OR U=Basic) NOT M=Visual
机构地区:[1]国防科技大学计算机学院,湖南长沙410073
出 处:《中文信息学报》2008年第1期9-14,共6页Journal of Chinese Information Processing
基 金:国家自然科学基金资助项目(60403050);新世纪优秀人才支持计划资助项目(NCET-06-0926)
摘 要:本文在对新闻报道理论分析及实验验证的基础上,提出一种多向量表示模型,使其在尽量不丢失信息的情况下,对特征集合尽可能细地划分。基于该模型,本文设计了一种模糊匹配的方法用于计算命名实体子向量之间的关联度,它们和多个向量相似度一起用支持向量机进行整合,形成报道模型间的相似度。本文选用TDT4中文语料作为测试语料,将上述模型及模糊匹配技术用于话题关联识别。实验表明,多向量模型能够改进话题关联识别的性能,模糊匹配技术也在一定程度上弥补了精确匹配带来的性能损失。Based on the analyses of news stories and the experimental verification, this paper introduces a multi vector model for story representation. The model represents the feature set as detail as possible. A fuzzy matching method is proposed to compute the relatedness between two named entity sub-vectors in the multi-vector model. To measure the similarity of the stories, all the {eatures together with the named entity relatedness are integrated by Support Vector Machine (SVM). The proposed methods have been tested on TDT4 Chinese corpus for story link detection. The experiment results indicate that story link detection based on multi-vector model can improve the performance, and the relation information generated by fuzzy matching can contribute to the improvement.
关 键 词:计算机应用 中文信息处理 话题关联识别 多向量表示模型 命名实体模糊匹配
分 类 号:TP391[自动化与计算机技术—计算机应用技术]
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在链接到云南高校图书馆文献保障联盟下载...
云南高校图书馆联盟文献共享服务平台 版权所有©
您的IP:216.73.216.229