基于知识融合的CRFs藏文分词系统被引量：17

Tibetan Automatic Word Segmentation Based on Conditional Random Fields and Knowledge Fusion

机构地区：[1]中央民族大学信息工程学院,北京100081 [2]中央民族大学少数民族语言文学系,北京100081 [3]中央民族大学国家语言资源监测中心少数民族语言分中心,北京100081

出　　处：《中文信息学报》2015年第6期213-219,共7页Journal of Chinese Information Processing

基　　金：国家自然科学基金重点项目(61331013)

摘　　要：藏文分词问题是藏文自然语言处理的基本问题之一,该文首先通过对35.1M的藏文语料进行标注之后,通过条件随机场模型对其进行训练,生成模型参数,再用模版对未分词的语料进行分词,针对基于条件随机场分词结果中存在的非藏文字符切分错误,藏文黏着词识别错误,停用词切分错误,未登录词切分错误等问题分别总结了规则,并对分词的结果利用规则进行再加工,得到最终的分词结果,开放实验表明该系统的正确率96.11%,召回率96.03%,F值96.06%。Tibetan word segmentation is one essential task in Tibetan language processing. In this paper, a CRF module is trained on 35.1M Tibetan corpus with manual annotation. The CRF segmentation results is processed by rules for the errors such as segmentation errors of non-Tibetan characters, recognition error of Tibetan adhesion words, segmentation errors of stop words and unreg 11%, recall rate of 96.03%, and F score of 96.06%

关键词：藏文分词条件随机场知识融合

分类号：TP391[自动化与计算机技术—计算机应用技术]

参考文献：

正在载入数据...

二级参考文献：

正在载入数据...

耦合文献：

正在载入数据...

引证文献：

正在载入数据...

二级引证文献：

正在载入数据...

同被引文献：

正在载入数据...

高级检索 检索式检索

时间限定

期刊范围

学科限定全选

高级检索 检索式检索

时间限定

期刊范围

学科限定全选

基于知识融合的CRFs藏文分词系统被引量：17

我的收藏

参考文献：

二级参考文献：

耦合文献：

引证文献：

二级引证文献：

同被引文献：

相关期刊文献：

相关的主题

相关的作者对象

相关的机构对象

下载全文

高级检索检索式检索

时间限定

期刊范围

学科限定全选

高级检索 检索式检索

时间限定

期刊范围

学科限定全选

基于知识融合的CRFs藏文分词系统 被引量：17

我的收藏

参考文献：

二级参考文献：

耦合文献：

引证文献：

二级引证文献：

同被引文献：

相关期刊文献：

相关的主题

相关的作者对象

相关的机构对象

下载全文

用户登录

高级检索检索式检索

基于知识融合的CRFs藏文分词系统被引量：17