TIP-LAS:一个开源的藏文分词词性标注系统  被引量:30

TIP-LAS:An Open Source Toolkit for Tibetan Word Segmentation and POS Tagging

在线阅读下载全文

作  者:李亚超[1] 江静[1] 加羊吉[1] 于洪志[1] 

机构地区:[1]甘肃省民族语言智能处理重点实验室,西北民族大学,甘肃兰州730030

出  处:《中文信息学报》2015年第6期203-207,共5页Journal of Chinese Information Processing

基  金:西北民族大学中央高校基本科研业务费专项资金(31920140064;31920150089)

摘  要:TIP-LAS是一个开源的藏文分词词性标注系统,提供藏文分词、词性标注功能。该系统基于条件随机场模型实现基于音节标注的藏文分词系统,采用最大熵模型,并融合音节特征,实现藏文词性标注系统。经过试验及对比分析,藏文分词系统和词性标注系统取得了较好的实验效果,系统的源代码可以从网上获取。希望该研究可以推动藏文分词、词性标注等基础工作的发展,提供一个可以比较、共享的研究平台。TIP-LAS is an open source toolkit for Tibetan segmentation and POS tagging. The toolkit implements the Tibetan segmentation system based on syllable tagging by the CRF model, and integrates the maximum entropy model with syllables features for Tibetan POS tagging. In the experiments, this system achieves good results. The source code is. shared in the Internet, together with the experimental corpus.

关 键 词:藏文 分词 词性标注 条件随机场 最大熵 

分 类 号:TP391[自动化与计算机技术—计算机应用技术]

 

参考文献:

正在载入数据...

 

二级参考文献:

正在载入数据...

 

耦合文献:

正在载入数据...

 

引证文献:

正在载入数据...

 

二级引证文献:

正在载入数据...

 

同被引文献:

正在载入数据...

 

相关期刊文献:

正在载入数据...

相关的主题
相关的作者对象
相关的机构对象