基于篇章的中文地名识别研究  被引量:18

Discourse-Based Chinese Location Name Recognition

在线阅读下载全文

作  者:唐旭日[1] 陈小荷[1] 许超[1] 李斌[1] 

机构地区:[1]南京师范大学文学院,江苏南京210097

出  处:《中文信息学报》2010年第2期24-32,共9页Journal of Chinese Information Processing

基  金:国家863高科技计划资助项目(2007AA12Z221);国家社会科学基金资助项目(07BYY050);国家自然科学基金资助项目(60773173)

摘  要:该文介绍了以篇章为单位的中文地名识别方法和系统实现。地名识别包括简单地名识别和复杂地名识别两个阶段。简单地名识别由基于条件随机场的识别模块和基于篇章地名关系的识别模块顺序构成,以原始文本为输入,直接利用地名内部结构和相邻字信息进行地名识别和文本分词,然后利用篇章地名关系和地名性判断进一步处理。复杂地名识别以简单地名识别结果为输入,采用条件随机场识别。系统在封闭测试和开放测试中F-1值分别达到92.87%和89.76%。研究发现,在地名性判断中地名确信度低的字串对于地名识别干扰性较大,篇章地名关系能够在不降低识别精确度的情况下有效提高召回率,综合利用地名短距离和长距离依存关系可以有效提高地名识别效果。The paper presents a system for the recognition of Chinese location names on the discourse level. The sys- tem employs three modules in sequence, the CRFs-based module for simple location name recognition, the discourse- based module for the relationship identification between the simple location names and the CRFs-based module for complex location name recognition. The CRFs-based module for single location name recognition takes raw text as input and models both the information of internal structure of basic location names and the information of neighbor- ing characters. The discourse based module employs toponymhood calculation and discourse-based location name re lation for recognition. The module of complex location name recognition is also based on CRFs but operates on the result of single toponym recognition. Experiments show that the system achieves the F-scores of 92. 87% and 89. 760% in close and open tests respectively.

关 键 词:计算机应用 中文信息处理 篇章地名关系 条件随机场 地名性判断 

分 类 号:TP391[自动化与计算机技术—计算机应用技术]

 

参考文献:

正在载入数据...

 

二级参考文献:

正在载入数据...

 

耦合文献:

正在载入数据...

 

引证文献:

正在载入数据...

 

二级引证文献:

正在载入数据...

 

同被引文献:

正在载入数据...

 

相关期刊文献:

正在载入数据...

相关的主题
相关的作者对象
相关的机构对象