检索规则说明:AND代表“并且”;OR代表“或者”;NOT代表“不包含”;(注意必须大写,运算符两边需空一格)
检 索 范 例 :范例一: (K=图书馆学 OR K=情报学) AND A=范并思 范例二:J=计算机应用与软件 AND (U=C++ OR U=Basic) NOT M=Visual
机构地区:[1]北京信息科技大学计算机学院,北京100192
出 处:《计算机科学》2013年第12期282-286,共5页Computer Science
基 金:国家自然科学基金项目:基于语义分析的中文微博信息挖掘方法研究(61370139);国家自然科学基金项目:基于语义分析的汉语文本错误自动侦测与纠错方法研究(61070119);北京市属高等学校创新团队建设与教师职业发展计划项目:面向大数据内容理解的理论基础及智能化处理技术(IDHT20130519)资助
摘 要:针对多年来词义消歧方法的不完善,从可计算性及其计算复杂度方面分析了多种不同结构的知识词典,最后选择北大计算语言所的《现代汉语语法信息词典》、《现代汉语语义词典》和同形标注的人民日报语料作为词义消歧知识源。研究了异构多知识源的融合方法,提取了敏捷规则知识库和词义搭配库,设计出了一种规则与统计相结合的词义消歧方法。在多种方法中最大熵与规则相结合的词义消歧方法准确率最高,与SemEval 2007(task#5)的最好成绩相比,分别在微平均值MicroAve(micro-average accuracy)和宏平均值MacroAve(macro-average accuracy)上提升了5.5%和0.9%。In this paper, various structure knowledge dictionaries were analyzed in the computability and computational complexity aspects. The grammatical knowledge-base of contemporary Chinese and Modem Chinese Semantic Dictiona- ry, both from the Institute of Computational Chinese Linguistics of Peking University, were chosen as the knowledge source. Fusion method of more heterogeneous source was considered, and agile rules knowledge base and lexical colloca- tion library were constructed, and a word sense disambiguation method of rules and statistics combination was designed. The method of combining maximum entropy and rule presents the highest accuracy in many kinds of word sense disam- biguation method. Compared to the best result in the SemEval 2007(task # 5), the MicroAve (micro-average accuracy) and MacroAve (macro-average accuracy) are promoted by 5.5% and 0. 9 %.
分 类 号:TP391.1[自动化与计算机技术—计算机应用技术]
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在链接到云南高校图书馆文献保障联盟下载...
云南高校图书馆联盟文献共享服务平台 版权所有©
您的IP:216.73.216.222