检索规则说明:AND代表“并且”;OR代表“或者”;NOT代表“不包含”;(注意必须大写,运算符两边需空一格)
检 索 范 例 :范例一: (K=图书馆学 OR K=情报学) AND A=范并思 范例二:J=计算机应用与软件 AND (U=C++ OR U=Basic) NOT M=Visual
机构地区:[1]太原师范学院计算机系,山西太原030012 [2]山西大学计算机与信息技术学院,山西太原030006
出 处:《太原师范学院学报(自然科学版)》2013年第4期79-82,共4页Journal of Taiyuan Normal University:Natural Science Edition
摘 要:文章分析了山西大学在第四届SIGHAN国际分词评测中的分词系统.根据中文分词中所遇到的问题,对其进行归类并利用层叠模型的思想对分词结果进行逐步的优化,最终达到一个较理想的结果.在该系统中,歧义字段的处理和未登录词内部信息的提取是主要解决的问题.实验结果表明,该系统在NCC(中国教育部国家语委)语料的开放测试中得到的正确率为94.46%,RIV得到较高的96.9%.We introduce the system of Word Segmentation and analyze its evaluation re- sults in the Fourth SIGHAN Bakeoff. A novel method has been used in the system,which main i-dea is:firstly,the main problems of WS have been classified, and then a cascaded model has been used to gradually optimize the system. The core of this WS system is the segmentation of ambigu-ous words and the internal information extraction of unknown words. The experiments show that the performance is satisfying, with the Rlv-measure 96.9% in NCC open test in the SIGHAN bakeoff 2007.
分 类 号:TP391[自动化与计算机技术—计算机应用技术]
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在链接到云南高校图书馆文献保障联盟下载...
云南高校图书馆联盟文献共享服务平台 版权所有©
您的IP:216.73.216.28