检索规则说明:AND代表“并且”;OR代表“或者”;NOT代表“不包含”;(注意必须大写,运算符两边需空一格)
检 索 范 例 :范例一: (K=图书馆学 OR K=情报学) AND A=范并思 范例二:J=计算机应用与软件 AND (U=C++ OR U=Basic) NOT M=Visual
机构地区:[1]苏州大学计算机科学与技术学院,江苏苏州215006
出 处:《计算机技术与发展》2006年第11期195-198,共4页Computer Technology and Development
摘 要:提出了一种新的基于属性标记的专有名词统一识别方法。其基本思想是:根据专有名词的成词特点,利用标注语料库,设定词语属性作为标准属性重新进行标注,在此语料基础上进行专有名词成词结构、成词环境的实例提取,并采用基于转换的错误驱动方法对提取的实例进行适用规则提取。在提取的实例和规则的基础上进行属性标注,是一种基于转换的错误驱动规则自学习方法与基于实例的学习方法相结合的基于浅层句法分析的一种新的识别专有名词的方法。实验证明该方法在测试样本集上准确率达到95.3%,召回率达到92.5%,是一种有效的专有名词识别方法。Introduces a new method to identify the Chinese proper noun. It is based on attribute tag, The basic thinking is : according the characteristics about the Chinese proper noun compages, using label corpus, enact the words attribute to be the standard attribute and relabeled it. Based on the corpus,distilling the Chinese proper noun instances about compares configuration and compages environnwnt, using the transfomiation - based error- drive learning method to distill the fit regulation. Doing attribute label based on the instance and regulation which just distilled is the method combined the transfonnatkion- based error - drive learning and instance - based learning. Experiments proved this method ratio of nicety aehieved 95.3 % on testing stylebooks, the ratio of recall achied, 92.5 %,so it is an effcetive method to identify Chinese proper noun.
关 键 词:中文专有名词识别 未登录词识别 属性标注 基于转换的错误驱动学习方法
分 类 号:TP391.1[自动化与计算机技术—计算机应用技术]
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在链接到云南高校图书馆文献保障联盟下载...
云南高校图书馆联盟文献共享服务平台 版权所有©
您的IP:216.73.216.117