检索规则说明:AND代表“并且”;OR代表“或者”;NOT代表“不包含”;(注意必须大写,运算符两边需空一格)
检 索 范 例 :范例一: (K=图书馆学 OR K=情报学) AND A=范并思 范例二:J=计算机应用与软件 AND (U=C++ OR U=Basic) NOT M=Visual
作 者:刘艳超[1] 郭剑毅[1,2] 余正涛[1,2] 周兰江[1,2] 严馨[1,2] 陈秀琴[3]
机构地区:[1]昆明理工大学信息工程与自动化学院,云南昆明650500 [2]昆明理工大学智能信息处理重点实验室,云南昆明650500 [3]昆明理工大学国际教育学院,云南昆明650093
出 处:《智能系统学报》2016年第4期503-512,共10页CAAI Transactions on Intelligent Systems
基 金:国家自然科学基金项目(61262041;61472168;61562052);云南省自然科学基金重点项目(2013FA030)
摘 要:命名实体识别是自然语言处理过程中的基础任务。本文针对越南语的复杂命名实体难识别及F值不够高的问题,提出了一种结合实体库的越南语命名实体识别混合方法。首先,本文根据越南语的语言和实体特点,选取有效的局部特征和全局特征,应用最大熵模型进行越南语命名实体识别;其次,根据本文制定的命名实体的规则进行越南语命名实体识别;然后,结合两者的识别结果,以规则为主,统计为辅原则;最后经过人工校对,把获取到的正确标记的实体加入到实体库,动态扩增实体库,为规则制定和特征选取提供丰富的语料和依据。实验表明,该方法能够有效地结合规则与统计的方法优点,互相弥补不足,明显提高了识别的正确率、召回率和F值。N E R ( n a m e d entity recognition) is the basic task in natural language processing. A i m e d at the problems of l o w Fvalues and the difficulty with c o mplex Vietnamese n a m e d entity recognition, a hybrid m e t h o d incorporating entity propertiesis proposed. Firstly, according to the Vietnamese language and entity characteristics, local and global features were selectedand a m a x i m u m entropy m o d e l built to recognize Vietnamese n a m e d entities. Secondly, according to the n a m e d entity rulesobtained, the Vietnamese entity w a s recognized. Then, combining the recognition results, this paper uses the rule as the m a i nprinciple and statistics as the supplementary principle. Finally, the obtained correct entity w a s added to the entity corpus aftermanual correction, dynamically expanding the entity corpus, w h i c h provided a rich corpus and a basis for determining rulesand selecting features. Experimental results s h o w that the m e t h o d can effectively take advantage of rules and statistics, andthat recognition accuracy, recall, and F are all significantly improved.
关 键 词:越南语 实体库构建 实体识别 最大熵 规则 实体特点 全局特征 局部特征
分 类 号:TP391.1[自动化与计算机技术—计算机应用技术]
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在链接到云南高校图书馆文献保障联盟下载...
云南高校图书馆联盟文献共享服务平台 版权所有©
您的IP:216.73.216.222