基于统计的中文地名识别  被引量:49

Identification of Chinese Place Names Based on Statistics

在线阅读下载全文

作  者:黄德根[1] 岳广玲[1] 杨元生[1] 

机构地区:[1]大连理工大学计算机科学与工程系,大连116024

出  处:《中文信息学报》2003年第2期36-41,共6页Journal of Chinese Information Processing

基  金:国家自然科学基金资助项目 (6 0 14 30 0 2 )

摘  要:本文针对有特征词的中文地名识别进行了研究。该系统使用从大规模地名词典和真实文本语料库得到的统计信息以及针对地名特点总结出来的规则 ,通过计算地名的构词可信度和接续可信度从而识别中文地名。该模型对自动分词的切分作了有效的调整 ,系统闭式召回率和精确率分别为 90 2 4 %和 93 14 % ,开式召回率和精确率分别达 86 86 %和 91 4 8%。Unknown word recognition is one of the challenging tasks in natural language processing research.This paper proposes a place name identification model in dictionary based Chinese word segmentation,in which we used statistical information drawn from a training corpus to calculate lexical reliability and contextual reliability.The rules of Chinese place names are also used in the model.We applied this approach to a Chinese morphological analysis system,and achieved 90.24% recall and 93 14% precision in close test,while the recall and precision also reach 86 86% and 91 48% in open test.

关 键 词:计算机应用 中文信息处理 中文地名识别 构词可信度 接续可信度 自动分词 

分 类 号:TP391.4[自动化与计算机技术—计算机应用技术]

 

参考文献:

正在载入数据...

 

二级参考文献:

正在载入数据...

 

耦合文献:

正在载入数据...

 

引证文献:

正在载入数据...

 

二级引证文献:

正在载入数据...

 

同被引文献:

正在载入数据...

 

相关期刊文献:

正在载入数据...

相关的主题
相关的作者对象
相关的机构对象