基于最大熵模型和规则的中文姓名识别  被引量:6

Identification of Chinese names based on maximum entropy model and rules

在线阅读下载全文

作  者:贾宁[1] 张全[2] 

机构地区:[1]中国科学院研究生院,北京100039 [2]中国科学院声学研究所,北京100080

出  处:《计算机工程与应用》2007年第35期1-4,共4页Computer Engineering and Applications

基  金:国家重点基础研究发展规划(973)( the National Grand Fundamental Research 973 Program of China under Grant No.2004CB318104); 中科院声学所知识创新工程项目

摘  要:中文姓名识别是中文信息处理的一项重要技术,识别的召回率对其它需要以姓名识别为基础的中文信息处理技术有至关重要的影响。提出了一种统计模型和处理规则相结合的中文姓名识别方法:首先以最大熵模型识别潜在姓氏,而后再通过判定规则作进一步处理。真实语料的开放测试表明,该方法在召回率方面有明显的优势,可以达到94%以上的召回率,同时能保证较高的准确率。Identification of Chinese names is one of the important fields for the Chinese language automatic processing.The recall rate of identification will affect other processing deeply.But most methods can't get a good recall rate which is up to 90%.This paper presents a method based on maximum entropy model and rules.The open test on real corpus shows that the recall rate of the system reaches 94%,with a precision more than 84%.The method is practicable,and benefits from its recall rate.

关 键 词:中文姓名识别 最大熵 规则 

分 类 号:TP391[自动化与计算机技术—计算机应用技术]

 

参考文献:

正在载入数据...

 

二级参考文献:

正在载入数据...

 

耦合文献:

正在载入数据...

 

引证文献:

正在载入数据...

 

二级引证文献:

正在载入数据...

 

同被引文献:

正在载入数据...

 

相关期刊文献:

正在载入数据...

相关的主题
相关的作者对象
相关的机构对象