检索规则说明:AND代表“并且”;OR代表“或者”;NOT代表“不包含”;(注意必须大写,运算符两边需空一格)
检 索 范 例 :范例一: (K=图书馆学 OR K=情报学) AND A=范并思 范例二:J=计算机应用与软件 AND (U=C++ OR U=Basic) NOT M=Visual
机构地区:[1]中国科学院研究生院,北京100039 [2]中国科学院声学研究所,北京100190
出 处:《计算机工程与应用》2009年第28期230-232,共3页Computer Engineering and Applications
基 金:国家重点基础研究发展规划(973)No2004CB318104;中科院声学所知识创新工程项目(No0654091431);中国科学院声学研究所"所长择优基金"(NoGS13SJJ04);中国科学院青年人才领域前沿项目(NoO754021432)~~
摘 要:对中文地名未登录词识别而言,首先充分挖掘地名用字本身的特征,及其上下文用字的特征,其次通过最大熵模型把这些来源不同的知识整合。在特征选择和知识获取时,通过对中文地名这个特定群体进行针对性分析,得到了更多的信息,如中文地名更常用哪些字以及这些字如何搭配更常见等。最终使得系统在真实语料的封闭测试和开放测试中分别达到了F值87%和83%的较好效果。This paper extracts the features from the Chinese place names and their context firstly,and then aggregates differernt features from different sources.Before setting feature functions,more information has been received by analyzing the Chinese characters features.This paper focuses on characters which are used frequently and how these characters matching with each other.Finally,it achieves an acceptable result by open test on real corpus.
分 类 号:TP391[自动化与计算机技术—计算机应用技术]
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在链接到云南高校图书馆文献保障联盟下载...
云南高校图书馆联盟文献共享服务平台 版权所有©
您的IP:18.222.109.133