检索规则说明:AND代表“并且”;OR代表“或者”;NOT代表“不包含”;(注意必须大写,运算符两边需空一格)
检 索 范 例 :范例一: (K=图书馆学 OR K=情报学) AND A=范并思 范例二:J=计算机应用与软件 AND (U=C++ OR U=Basic) NOT M=Visual
作 者:张仰森[1,2]
机构地区:[1]北京信息科技大学智能信息处理研究所,北京100192 [2]中国科学院自动化所模式识别国家重点实验室,北京100080
出 处:《计算机工程》2009年第18期15-18,共4页Computer Engineering
基 金:国家自然科学基金资助项目(60873013);北京市自然科学基金B类资助重点项目(KZ200811232019);中科院自动化所模式识别国家重点实验室开放专项经费基金资助项目;北京市属市管高校人才强教计划基金资助项目(PXM2008_014215_055942)
摘 要:分析最大熵模型开源代码的原理和各参数的意义,采用频次和平均互信息相结合特征筛选和过滤方法,用Delphi语言编程实现汉语词义消歧的最大熵模型,运用GIS(Generalized Iterative Scaling)算法计算模型的参数。结合一些语言知识规则解决训练语料的数据稀疏问题,所实现的汉语词义消歧与标注系统,对800多个多义词进行词义标注,取得了较好的标注正确率。This paper analyzes the principle and every parameter meaning of open-source code of maximum entropy models, uses the method of the combination of feature frequency and average mutual information to select the features from the candidate feature set, realizes the maximum entropy models for Chinese Word Sense Disambiguation(WSD) by Delphi, and computes models parameters by GIS algorithm. It solves the data sparseness problem by combining the linguistic knowledge. The system for Chinese word sense automatic disambiguation and tagging is implemented. It uses the system to tag word sense of more than 800 multivocal words, and lives the better correcte rate.
关 键 词:词义消歧与标注 最大熵模型 上下文特征 特征筛选
分 类 号:TP391[自动化与计算机技术—计算机应用技术]
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在链接到云南高校图书馆文献保障联盟下载...
云南高校图书馆联盟文献共享服务平台 版权所有©
您的IP:216.73.216.249