检索规则说明:AND代表“并且”;OR代表“或者”;NOT代表“不包含”;(注意必须大写,运算符两边需空一格)
检 索 范 例 :范例一: (K=图书馆学 OR K=情报学) AND A=范并思 范例二:J=计算机应用与软件 AND (U=C++ OR U=Basic) NOT M=Visual
作 者:赵知纬[1,2] 顾静航[1,2] 胡亚楠[1,2] 钱龙华[1,2] 周国栋[1,2]
机构地区:[1]苏州大学自然语言处理实验室,江苏苏州215006 [2]苏州大学计算机科学与技术学院,江苏苏州215006
出 处:《计算机应用》2013年第4期984-987,共4页journal of Computer Applications
基 金:国家自然科学基金资助项目(60873150;90920004);江苏省自然科学基金资助项目(BK2010219);江苏省高校自然科学重大项目(11KJA520003)
摘 要:跨文本(实体)指代消解(CDCR)的任务就是把所有分布在不同文本但指向相同实体的词组合在一起形成一个指代链。传统的跨文本指代消解主要采用聚类方法来解决信息检索中遇到的重名消歧问题。将聚类问题转换为分类问题,并采用支持向量机(SVM)分类器来解决信息抽取中的重名消歧和多名聚合问题。该方法可有效融合实体名称的构词特征、读音特征以及文本内部和文本外部的多种语义特征。在中文跨文本指代语料库上的实验表明,同聚类方法相比,该方法在提高精度的同时,也提高了召回率。The task of Cross-Document Co-reference Resolution(CDCR) aims to merge those words distributed in different texts which refer to the same entity together to form co-reference chains.The traditional research on CDCR addresses name disambiguation posed in information retrieval using clustering methods.This paper transformed CDCR as a classification problem by using an Support Vector Machine(SVM) classifier to resolve both name disambiguation and variant consolidation,both of which were prevalent in information extraction.This method can effectively integrate various features,such as morphological,phonetic,and semantic knowledge collected from the corpus and the Internet.The experiment on a Chinese cross-document co-reference corpus shows the classification method outperforms clustering methods in both precision and recall.
关 键 词:跨文本指代 信息抽取 支持向量机分类器 语义信息 重名消歧 多名聚合
分 类 号:TP391[自动化与计算机技术—计算机应用技术]
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在链接到云南高校图书馆文献保障联盟下载...
云南高校图书馆联盟文献共享服务平台 版权所有©
您的IP:3.15.22.202