基于HMM的楚辞自动分词标注研究  被引量:33

Research on Automatic Word Segmentation and Pos Tagging for Chu Ci Based on HMM

在线阅读下载全文

作  者:钱智勇[1,2] 周建忠[1] 童国平[3] 苏新宁[3] 

机构地区:[1]南通大学楚辞研究中心 [2]南通大学图书馆 [3]南京大学信息管理学院

出  处:《图书情报工作》2014年第4期105-110,共6页Library and Information Service

基  金:江苏省高校哲学社会科学重点研究基地重大项目“楚辞数字化处理与应用研究”(项目编号:2010JDXM037);国家社会科学基金项目“楚辞文献语义化研究”(项目编号:10BTQ031)研究成果之一

摘  要:研究古代和现代汉语的自动分词标注技术,用隐马尔科夫模型对《楚辞》进行自动分词标注实验,通过比较分词后的标注词性概率,取最大概率作为最后的分词和词性标注结果,并在其中使用全切分和加值平滑算法。经过实验调整分词标注程序模块和参数,最终得到一个分词标注辅助软件,其开放测试的分词F值为85%,标注F值为55%,高出基准F值14个百分点。This paper studies the ancient and modem Chinese word segmentation and pos tagging technology. Then it makes an automatic word segmentation and pos tagging experiment on Chu Ci by using Hidden Markov Model. The prob- ability of speech tagging is compared after word segmentation, maximum probability is taken as the last word segmentation and pos tagging results, through the method of a smoothing algorithm with full segmentation and add value. By adjusting modules and parameters of word segmentation and pos tagging program by experiment, it gets a word segmentation and pos tagging assistive software. The F-score of word segmentation is 85% and the F-score of pos tagging is 55% in the open tes,which is 14 percentage higher than the benchmark F.

关 键 词:隐马尔科夫模型 楚辞 自动分词 词性标注 古文分词 

分 类 号:TP391.1[自动化与计算机技术—计算机应用技术]

 

参考文献:

正在载入数据...

 

二级参考文献:

正在载入数据...

 

耦合文献:

正在载入数据...

 

引证文献:

正在载入数据...

 

二级引证文献:

正在载入数据...

 

同被引文献:

正在载入数据...

 

相关期刊文献:

正在载入数据...

相关的主题
相关的作者对象
相关的机构对象