基于最大熵分类器的藏文句子边界自动识别方法研究被引量：10

Research on the Automatic Identification of Tibetan Sentence Boundaries with Maximum Entropy Classifier

作　　者：才藏太[1]

出　　处：《计算机工程与科学》2012年第6期187-190,共4页Computer Engineering & Science

基　　金：青海省科技支撑项目(2011-Z-754;2011-Z-755)

摘　　要：藏文句子的边界识别是藏文文本分析的基础性研究,是藏文与其他语种之间建立句子级平行语料库的必要工作,也是进一步进行藏汉机器翻译的基础。本文通过分析藏文句子的结束形式,研究藏文句子边界规则,提出了一种藏文句子的边界识别方法。该方法首先利用特殊规则和词表对藏文句子进行识别,然后利用最大熵模型对有歧义的句子进一步识别。从而提高藏文句子的边界识别率。The boundary Ientification of Tibetan sentence is the basical research of Tibetan text anal- ysis. It is the essential work to build a Parallel Corpora between Tibetan and other languages, and also it is the base to do Tibetan-Chinese machine translation. The article raises the ways of Boundary Identi- fication of Tibetan sentences through the analyze of the ending forms of Tibetan sentences and the study of it＇s boundary rules. The method is firstly using the special rules and word forms to identify Tibetan Sentences, and then to make a further identification for those ambiguous sentences by using Maximum Entropy Model. So it can improve the boundary identification rate of Tibetan sentences.

关键词：藏文句子边界识别最大熵模型

分类号：TP393[自动化与计算机技术—计算机应用技术]

参考文献：

正在载入数据...

二级参考文献：

正在载入数据...

耦合文献：

正在载入数据...

引证文献：

正在载入数据...

二级引证文献：

正在载入数据...

同被引文献：

正在载入数据...

高级检索 检索式检索

时间限定

期刊范围

学科限定全选

高级检索 检索式检索

时间限定

期刊范围

学科限定全选

基于最大熵分类器的藏文句子边界自动识别方法研究被引量：10

我的收藏

参考文献：

二级参考文献：

耦合文献：

引证文献：

二级引证文献：

同被引文献：

相关期刊文献：

相关的主题

相关的作者对象

相关的机构对象

下载全文

高级检索检索式检索

时间限定

期刊范围

学科限定全选

高级检索 检索式检索

时间限定

期刊范围

学科限定全选

基于最大熵分类器的藏文句子边界自动识别方法研究 被引量：10

我的收藏

参考文献：

二级参考文献：

耦合文献：

引证文献：

二级引证文献：

同被引文献：

相关期刊文献：

相关的主题

相关的作者对象

相关的机构对象

下载全文

用户登录

高级检索检索式检索

基于最大熵分类器的藏文句子边界自动识别方法研究被引量：10