利用地名用字分析的中文地名识别处理  被引量:7

Chinese place name identification with Chinese characters features

在线阅读下载全文

作  者:李诺[1,2] 张全[2] 

机构地区:[1]中国科学院研究生院,北京100039 [2]中国科学院声学研究所,北京100190

出  处:《计算机工程与应用》2009年第28期230-232,共3页Computer Engineering and Applications

基  金:国家重点基础研究发展规划(973)No2004CB318104;中科院声学所知识创新工程项目(No0654091431);中国科学院声学研究所"所长择优基金"(NoGS13SJJ04);中国科学院青年人才领域前沿项目(NoO754021432)~~

摘  要:对中文地名未登录词识别而言,首先充分挖掘地名用字本身的特征,及其上下文用字的特征,其次通过最大熵模型把这些来源不同的知识整合。在特征选择和知识获取时,通过对中文地名这个特定群体进行针对性分析,得到了更多的信息,如中文地名更常用哪些字以及这些字如何搭配更常见等。最终使得系统在真实语料的封闭测试和开放测试中分别达到了F值87%和83%的较好效果。This paper extracts the features from the Chinese place names and their context firstly,and then aggregates differernt features from different sources.Before setting feature functions,more information has been received by analyzing the Chinese characters features.This paper focuses on characters which are used frequently and how these characters matching with each other.Finally,it achieves an acceptable result by open test on real corpus.

关 键 词:中文地名识别 地名用字分析 最大熵 

分 类 号:TP391[自动化与计算机技术—计算机应用技术]

 

参考文献:

正在载入数据...

 

二级参考文献:

正在载入数据...

 

耦合文献:

正在载入数据...

 

引证文献:

正在载入数据...

 

二级引证文献:

正在载入数据...

 

同被引文献:

正在载入数据...

 

相关期刊文献:

正在载入数据...

相关的主题
相关的作者对象
相关的机构对象