检索规则说明:AND代表“并且”;OR代表“或者”;NOT代表“不包含”;(注意必须大写,运算符两边需空一格)
检 索 范 例 :范例一: (K=图书馆学 OR K=情报学) AND A=范并思 范例二:J=计算机应用与软件 AND (U=C++ OR U=Basic) NOT M=Visual
机构地区:[1]大连理工大学计算机科学与工程系,大连116024
出 处:《中文信息学报》2003年第2期36-41,共6页Journal of Chinese Information Processing
基 金:国家自然科学基金资助项目 (6 0 14 30 0 2 )
摘 要:本文针对有特征词的中文地名识别进行了研究。该系统使用从大规模地名词典和真实文本语料库得到的统计信息以及针对地名特点总结出来的规则 ,通过计算地名的构词可信度和接续可信度从而识别中文地名。该模型对自动分词的切分作了有效的调整 ,系统闭式召回率和精确率分别为 90 2 4 %和 93 14 % ,开式召回率和精确率分别达 86 86 %和 91 4 8%。Unknown word recognition is one of the challenging tasks in natural language processing research.This paper proposes a place name identification model in dictionary based Chinese word segmentation,in which we used statistical information drawn from a training corpus to calculate lexical reliability and contextual reliability.The rules of Chinese place names are also used in the model.We applied this approach to a Chinese morphological analysis system,and achieved 90.24% recall and 93 14% precision in close test,while the recall and precision also reach 86 86% and 91 48% in open test.
关 键 词:计算机应用 中文信息处理 中文地名识别 构词可信度 接续可信度 自动分词
分 类 号:TP391.4[自动化与计算机技术—计算机应用技术]
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在链接到云南高校图书馆文献保障联盟下载...
云南高校图书馆联盟文献共享服务平台 版权所有©
您的IP:216.73.216.70