检索规则说明:AND代表“并且”;OR代表“或者”;NOT代表“不包含”;(注意必须大写,运算符两边需空一格)
检 索 范 例 :范例一: (K=图书馆学 OR K=情报学) AND A=范并思 范例二:J=计算机应用与软件 AND (U=C++ OR U=Basic) NOT M=Visual
作 者:邱莎[1,2] 阿圆[1] 王付艳[1] 丁海燕[3]
机构地区:[1]昆明学院信息技术学院,云南昆明650214 [2]复旦大学计算机科学技术学院,上海201203 [3]云南大学信息学院,云南昆明650091
出 处:《计算机技术与发展》2011年第11期35-38,共4页Computer Technology and Development
基 金:云南省教育科研资助项目(09Y0047);昆明学院科研课题基金(2009G012)
摘 要:中文地名的自动识别是命名实体识别任务中难度较大的任务之一,目的是从中文文本中自动准确提取地理专用名词。文中使用统计模型中的条件随机场对中文地名的自动识别在字一级粒度进行了研究。在研究中利用条件随机场能任意添加特征的优点,合理引用了丰富的特征组合,在大规模语料上进行训练,统计获得标注序列基于特征集的条件概率分布,并采用序列标注的方式,实现中文地名的自动识别。多次闭合测试和开放测试结果F1值为90%左右,识别效果良好。Chinese location name recognition is one of the difficult tasks of Chinese named entity recognition. Its task is automatic extracting geography special nouns from Chinese texts accurately. Based on one of the statistical models, the conditional random fields, discussed the task of automatic recognition of Chinese location name on the character level. To take advantage of the ability of using arbi- trary features as input in CRFs, not only reasonable feature template was structured, but also the large scale corpus was used in training. The conditional probability distribution of label sequences was computed using statistics. By sequence labeling, it implemented the automatic recognition of Chinese location name. It obtained promising results on different closed and opened test corpus with the F1 measurement value of about 90% .
分 类 号:TP31[自动化与计算机技术—计算机软件与理论]
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在链接到云南高校图书馆文献保障联盟下载...
云南高校图书馆联盟文献共享服务平台 版权所有©
您的IP:216.73.216.7