检索规则说明:AND代表“并且”;OR代表“或者”;NOT代表“不包含”;(注意必须大写,运算符两边需空一格)
检 索 范 例 :范例一: (K=图书馆学 OR K=情报学) AND A=范并思 范例二:J=计算机应用与软件 AND (U=C++ OR U=Basic) NOT M=Visual
作 者:才藏太[1]
机构地区:[1]青海师范大学计算机学院,青海西宁810008
出 处:《计算机工程与科学》2012年第6期187-190,共4页Computer Engineering & Science
基 金:青海省科技支撑项目(2011-Z-754;2011-Z-755)
摘 要:藏文句子的边界识别是藏文文本分析的基础性研究,是藏文与其他语种之间建立句子级平行语料库的必要工作,也是进一步进行藏汉机器翻译的基础。本文通过分析藏文句子的结束形式,研究藏文句子边界规则,提出了一种藏文句子的边界识别方法。该方法首先利用特殊规则和词表对藏文句子进行识别,然后利用最大熵模型对有歧义的句子进一步识别。从而提高藏文句子的边界识别率。The boundary Ientification of Tibetan sentence is the basical research of Tibetan text anal- ysis. It is the essential work to build a Parallel Corpora between Tibetan and other languages, and also it is the base to do Tibetan-Chinese machine translation. The article raises the ways of Boundary Identi- fication of Tibetan sentences through the analyze of the ending forms of Tibetan sentences and the study of it's boundary rules. The method is firstly using the special rules and word forms to identify Tibetan Sentences, and then to make a further identification for those ambiguous sentences by using Maximum Entropy Model. So it can improve the boundary identification rate of Tibetan sentences.
分 类 号:TP393[自动化与计算机技术—计算机应用技术]
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在链接到云南高校图书馆文献保障联盟下载...
云南高校图书馆联盟文献共享服务平台 版权所有©
您的IP:3.143.254.11