基于统计的中文地名自动识别研究  被引量:13

Study on Automatic Recognition of Chinese Location Names Based on Statistical Method

在线阅读下载全文

作  者:邱莎[1,2] 阿圆[1] 王付艳[1] 丁海燕[3] 

机构地区:[1]昆明学院信息技术学院,云南昆明650214 [2]复旦大学计算机科学技术学院,上海201203 [3]云南大学信息学院,云南昆明650091

出  处:《计算机技术与发展》2011年第11期35-38,共4页Computer Technology and Development

基  金:云南省教育科研资助项目(09Y0047);昆明学院科研课题基金(2009G012)

摘  要:中文地名的自动识别是命名实体识别任务中难度较大的任务之一,目的是从中文文本中自动准确提取地理专用名词。文中使用统计模型中的条件随机场对中文地名的自动识别在字一级粒度进行了研究。在研究中利用条件随机场能任意添加特征的优点,合理引用了丰富的特征组合,在大规模语料上进行训练,统计获得标注序列基于特征集的条件概率分布,并采用序列标注的方式,实现中文地名的自动识别。多次闭合测试和开放测试结果F1值为90%左右,识别效果良好。Chinese location name recognition is one of the difficult tasks of Chinese named entity recognition. Its task is automatic extracting geography special nouns from Chinese texts accurately. Based on one of the statistical models, the conditional random fields, discussed the task of automatic recognition of Chinese location name on the character level. To take advantage of the ability of using arbi- trary features as input in CRFs, not only reasonable feature template was structured, but also the large scale corpus was used in training. The conditional probability distribution of label sequences was computed using statistics. By sequence labeling, it implemented the automatic recognition of Chinese location name. It obtained promising results on different closed and opened test corpus with the F1 measurement value of about 90% .

关 键 词:中文地名识别 条件随机场 特征模板 

分 类 号:TP31[自动化与计算机技术—计算机软件与理论]

 

参考文献:

正在载入数据...

 

二级参考文献:

正在载入数据...

 

耦合文献:

正在载入数据...

 

引证文献:

正在载入数据...

 

二级引证文献:

正在载入数据...

 

同被引文献:

正在载入数据...

 

相关期刊文献:

正在载入数据...

相关的主题
相关的作者对象
相关的机构对象