检索规则说明:AND代表“并且”;OR代表“或者”;NOT代表“不包含”;(注意必须大写,运算符两边需空一格)
检 索 范 例 :范例一: (K=图书馆学 OR K=情报学) AND A=范并思 范例二:J=计算机应用与软件 AND (U=C++ OR U=Basic) NOT M=Visual
作 者:李丽双[1,2] 党延忠[1] 廖文平[2] 黄德根[2] 张颖[2]
机构地区:[1]大连理工大学管理科学与工程学院,辽宁大连116024 [2]大连理工大学计算机科学与技术学院,辽宁大连116024
出 处:《大连理工大学学报》2012年第2期285-289,共5页Journal of Dalian University of Technology
基 金:国家自然科学基金资助项目(61173101;71031002)
摘 要:采用递增式学习策略优化条件随机域(conditional random fields,CRF)的特征模板以提高中文地名的识别效果,结合语言学相关知识构建规则库,以弥补机器学习模型获取知识不够全面导致召回率偏低的不足,最终实现了CRF与规则相结合的中文地名识别系统.实验结果表明,采用CRF与规则相结合的方法识别中文文本中的地名是有效的,对Bakeoff2007NER任务的MSRA语料进行开放测试,召回率、精确率和F值分别为94.67%、92.35%和93.50%.The feature templates of conditional random fields(CRF) are optimized employing incremental learning′s strategy to improve the performance of recognizing Chinese location names.Combining the linguistic knowledge,a rule base is constructed to avoid the low recall caused by the insufficient knowledge obtained from machine learning model.Finally,a system combining CRF with rules to identify location names in Chinese texts is achieved.Experimental results show that the proposed method is effective.In the MSRA corpus Bakeoff2007 NER task,the recall,precision and F value obtained by this system can reach 94.67%,92.35% and 93.50 % respectively in open tests.
关 键 词:中文信息处理 中文地名识别 条件随机域 基于规则的后处理
分 类 号:TP391[自动化与计算机技术—计算机应用技术]
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在链接到云南高校图书馆文献保障联盟下载...
云南高校图书馆联盟文献共享服务平台 版权所有©
您的IP:3.139.83.202