一种基于可信度的人名识别方法  被引量:20

Recognition of Person Names Based on Reliability

在线阅读下载全文

作  者:罗智勇 [1] 宋柔 [2] 

机构地区:[1]北京工业大学,计算机学院,北京,100022,北京语言大学语言信息处理研究所,北京,100083 [2]北京语言大学语言信息处理研究所,北京,100083

出  处:《中文信息学报》2005年第3期67-72,86,共7页Journal of Chinese Information Processing

基  金:国家自然科学基金资助项目 (6 0 2 72 0 5 5 ) ;国家 86 3计划资助项目 (2 0 0 1AA114 111) ;教育部科学技术研究重点资助项目 (0 0 12 8)

摘  要:专名识别技术是影响中文自动分词精度的一个重要方面,也是自动分词技术的难点之一。本文以人名识别为例,分析了目前流行的基于语料库和统计语言模型的专名识别方法中在概率估值问题上存在的弊端;同时在规则和统计相结合的基础上,提出了一种基于可信度的人名识别方法,并给出了一个渐进式模型训练方法,克服了人工标注语料库规模的限制。从我们对《人民日报》1998年1月、2 0 0 0年12月(共约379万字)语料的测试结果来看,基于可信度的人名识别方法比传统的概率估值方法识别效果有一定的提高。Recognition of proper noun is one of the most important parts in word segmentation system in modern Chinese. This paper firstly analyzes the shortcomings of traditional proper noun recognition method in statistical language models and other corpus-based models. Secondly, we put forward a recognition strategy of person names based on reliability. We also train the model with a bootstrapping method without the limit of manually tagged corpus. Large-scale test on real corpus shows that this method successfully resolves the problem of mis-estimate of candidate proper nouns in traditional methods. In addition, our method is comparable to traditional corpus-based method.

关 键 词:计算机应用 中文信息处理 自动分词 人名识别 统计方法 可信度 

分 类 号:TP391.12[自动化与计算机技术—计算机应用技术]

 

参考文献:

正在载入数据...

 

二级参考文献:

正在载入数据...

 

耦合文献:

正在载入数据...

 

引证文献:

正在载入数据...

 

二级引证文献:

正在载入数据...

 

同被引文献:

正在载入数据...

 

相关期刊文献:

正在载入数据...

相关的主题
相关的作者对象
相关的机构对象