基于知识融合的CRFs藏文分词系统  被引量:17

Tibetan Automatic Word Segmentation Based on Conditional Random Fields and Knowledge Fusion

在线阅读下载全文

作  者:洛桑嘎登 杨媛媛[2] 赵小兵[3] 

机构地区:[1]中央民族大学信息工程学院,北京100081 [2]中央民族大学少数民族语言文学系,北京100081 [3]中央民族大学国家语言资源监测中心少数民族语言分中心,北京100081

出  处:《中文信息学报》2015年第6期213-219,共7页Journal of Chinese Information Processing

基  金:国家自然科学基金重点项目(61331013)

摘  要:藏文分词问题是藏文自然语言处理的基本问题之一,该文首先通过对35.1M的藏文语料进行标注之后,通过条件随机场模型对其进行训练,生成模型参数,再用模版对未分词的语料进行分词,针对基于条件随机场分词结果中存在的非藏文字符切分错误,藏文黏着词识别错误,停用词切分错误,未登录词切分错误等问题分别总结了规则,并对分词的结果利用规则进行再加工,得到最终的分词结果,开放实验表明该系统的正确率96.11%,召回率96.03%,F值96.06%。Tibetan word segmentation is one essential task in Tibetan language processing. In this paper, a CRF module is trained on 35.1M Tibetan corpus with manual annotation. The CRF segmentation results is processed by rules for the errors such as segmentation errors of non-Tibetan characters, recognition error of Tibetan adhesion words, segmentation errors of stop words and unreg 11%, recall rate of 96.03%, and F score of 96.06%

关 键 词:藏文 分词 条件随机场 知识融合 

分 类 号:TP391[自动化与计算机技术—计算机应用技术]

 

参考文献:

正在载入数据...

 

二级参考文献:

正在载入数据...

 

耦合文献:

正在载入数据...

 

引证文献:

正在载入数据...

 

二级引证文献:

正在载入数据...

 

同被引文献:

正在载入数据...

 

相关期刊文献:

正在载入数据...

相关的主题
相关的作者对象
相关的机构对象