藏语自动分词中的几个关键问题的研究  被引量:7

Research on Several Key Issues in Tibetan Word Segmentation

在线阅读下载全文

作  者:完么扎西[1] 尼玛扎西[2] 

机构地区:[1]青海师范大学民族师范学院,青海海南813000 [2]西藏大学现代教育技术中心,西藏拉萨850000

出  处:《中文信息学报》2014年第4期132-139,共8页Journal of Chinese Information Processing

基  金:科技部973计划前期研究专项项目课题"藏语语音识别技术研究"(2009CB326201)资助;"长江学者与创新团队发展计划"藏文信息技术创新团队(IRT0975)计划资助;"西藏大学211工程"三期项目资助

摘  要:在分析现有的藏语自动分词方法基础上,该文通过分析藏文构词规则、句法结构、词的前后词性关系、后加字的添接法和格助词的用法等来重点研究了未登录词、紧缩词和交集型歧义的识别及处理方法,并提出了"重组法","排除—还原法"和"词性规则法"三种方法。经测试,在文学类、诗歌类、医学类和新闻类等大小为1M的藏语语料中未登录词、紧缩词和交集型歧义的识别准确率分别达到99.84%、99.95%和92.02%。This paper analyses Tibetan word formation rules, syntactic structures, adjacent Part-Of-Speeches, the pattern of the suffix character ‘ ’ as well as the usage of case-auxiliary words. Focusing on the processing of out-of- vocabulary words, abbreviations and overlapping ambiguities, three methods are proposed as the re-combination method the exclusion-restoration method, and the POS rule method, respectively. Experiments on a 1M Tibetan corpus of literature, poetry, medicine and news indicate the precision of the above methods are 99.84%, 99.95% and 92.02 %, respectively.

关 键 词:未登录词 紧缩词 交集型歧义 

分 类 号:TP391[自动化与计算机技术—计算机应用技术]

 

参考文献:

正在载入数据...

 

二级参考文献:

正在载入数据...

 

耦合文献:

正在载入数据...

 

引证文献:

正在载入数据...

 

二级引证文献:

正在载入数据...

 

同被引文献:

正在载入数据...

 

相关期刊文献:

正在载入数据...

相关的主题
相关的作者对象
相关的机构对象