检索规则说明:AND代表“并且”;OR代表“或者”;NOT代表“不包含”;(注意必须大写,运算符两边需空一格)
检 索 范 例 :范例一: (K=图书馆学 OR K=情报学) AND A=范并思 范例二:J=计算机应用与软件 AND (U=C++ OR U=Basic) NOT M=Visual
机构地区:[1]华北电力大学电子与通信工程系,河北保定071003 [2]河北大学卫生职业技术学院,河北保定071000 [3]北京邮电大学信息工程学院,北京100876
出 处:《计算机工程与应用》2008年第21期157-161,共5页Computer Engineering and Applications
基 金:教育部语信司科研项目( No.MZ115-022);华北电力大学博士学位教师科研基金( No.200812005)
摘 要:针对汉语人名识别的难点,基于最大熵算法提出了结合多知识、多模型的识别方法,充分考虑了人名的内部特征(小颗粒特征)和人名的语境信息。论文的主要贡献是:将概率信息赋予最大熵模型,极大提高人名的准确率和召回率;细化了分类模型,将人名识别分成中国人名识别、外国译名识别和单字人名识别;提出动态优先级方法来防止一个外国译名被部分识别为一个或几个中国人名。实验测试数据为1998年1月的人民日报和Sighan(2006)命名实体测试语料。测试结果表明,人民日报(1998-01)的召回率为90.06%,准确率为89.27%;Sighan(MSRA)语料的召回率为95.39%,准确率为96.71%;Sighan(LDC)语料的召回率为87.56%,准确率为91.04%。实验结果证明,提出的人名识别方法是非常有效的。A new approach is proposed to recognize personal name,where,combining multi-knowledge and multi-model,the inner-feature of personal name and its context information are considered.This paper proposes a probabilistic feature based Maxi- mum Entropy (ME) model for personal name recognition.Where,probabilistic feature functions are used instead of binary feature functions,it is one of the several differences between this model and the most of the previous ME based model.We also explore confidence functions.We use sub-models to model Chinese Person Names,foreign names and word-only name respectively.The dynamic priority method is used to prevent a foreign personal name from splitting a Chinese personal name and the other section. Experimental results show this ME model combining above new elements brings significant improvements.The experiment shows that recall is 90.06% and precision is 89.27% in People's Daily (1998/01),recall is 95.39% and precision is 96.71% in SIGHAN MSRA corpus,and recall is 87.56% and precision is 91.04% in SIGHAN LDC corpus.
分 类 号:TP391[自动化与计算机技术—计算机应用技术]
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在链接到云南高校图书馆文献保障联盟下载...
云南高校图书馆联盟文献共享服务平台 版权所有©
您的IP:216.73.216.15