检索规则说明:AND代表“并且”;OR代表“或者”;NOT代表“不包含”;(注意必须大写,运算符两边需空一格)
检 索 范 例 :范例一: (K=图书馆学 OR K=情报学) AND A=范并思 范例二:J=计算机应用与软件 AND (U=C++ OR U=Basic) NOT M=Visual
出 处:《中文信息学报》2010年第2期24-32,共9页Journal of Chinese Information Processing
基 金:国家863高科技计划资助项目(2007AA12Z221);国家社会科学基金资助项目(07BYY050);国家自然科学基金资助项目(60773173)
摘 要:该文介绍了以篇章为单位的中文地名识别方法和系统实现。地名识别包括简单地名识别和复杂地名识别两个阶段。简单地名识别由基于条件随机场的识别模块和基于篇章地名关系的识别模块顺序构成,以原始文本为输入,直接利用地名内部结构和相邻字信息进行地名识别和文本分词,然后利用篇章地名关系和地名性判断进一步处理。复杂地名识别以简单地名识别结果为输入,采用条件随机场识别。系统在封闭测试和开放测试中F-1值分别达到92.87%和89.76%。研究发现,在地名性判断中地名确信度低的字串对于地名识别干扰性较大,篇章地名关系能够在不降低识别精确度的情况下有效提高召回率,综合利用地名短距离和长距离依存关系可以有效提高地名识别效果。The paper presents a system for the recognition of Chinese location names on the discourse level. The sys- tem employs three modules in sequence, the CRFs-based module for simple location name recognition, the discourse- based module for the relationship identification between the simple location names and the CRFs-based module for complex location name recognition. The CRFs-based module for single location name recognition takes raw text as input and models both the information of internal structure of basic location names and the information of neighbor- ing characters. The discourse based module employs toponymhood calculation and discourse-based location name re lation for recognition. The module of complex location name recognition is also based on CRFs but operates on the result of single toponym recognition. Experiments show that the system achieves the F-scores of 92. 87% and 89. 760% in close and open tests respectively.
关 键 词:计算机应用 中文信息处理 篇章地名关系 条件随机场 地名性判断
分 类 号:TP391[自动化与计算机技术—计算机应用技术]
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在链接到云南高校图书馆文献保障联盟下载...
云南高校图书馆联盟文献共享服务平台 版权所有©
您的IP:3.145.88.233