面向自然语言处理的大规模汉藏(藏汉)双语语料库构建技术研究  被引量:18

Research on Large-scale Sino-Tibetan Bilingual Corpus Construction for Natural Language Processing

在线阅读下载全文

作  者:才让加[1,2] 

机构地区:[1]青海师范大学计算机学院 [2]青海师范大学藏文信息处理省部共建教育部重点实验室青海省藏文信息研究中心,青海西宁810008

出  处:《中文信息学报》2011年第6期157-161,共5页Journal of Chinese Information Processing

基  金:国家自然科学基金资助项目(61063033);973前期研究专项资助项目(2010CB334708);教育部“长江学者和创新团队发展计划”资助项目(IRT1068)

摘  要:双语语料库建设及其自动对齐研究对计算语言学的发展具有重要的意义。目前国内外已建立了各类汉英双语语料库以及服务于汉英机器翻译的双语对齐语料库和短语库。为了少数民族语言的机器翻译的研究从一开始就从较高起点起步,需要对汉藏双语文本的篇章级、段落级、句子级自动对齐技术进行研究,为开发和研究汉藏机器翻译奠定基础。主要研究汉藏双语语料库对齐、汉藏双语词典抽取、双语语料的收集、整理、存储以及检索等关键技术。最终研究结果是藏文编码的自动识别与转换技术,藏语语料库构建技术、汉藏双语词典抽取技术、汉藏平行语料库句子和词语对齐技术,并建立面向汉藏机器翻译的大规模汉藏双语对齐语料库。The costruction of bilingual Corpus and its automatic alignment research are of vital importance for the development of the computational linguistics.So far various types of Chinese-English bilingual corpus,including substantial sentnece aligned corpus for MT,have been developed both in China and abroad.In order to start the MT research involving minority with the state-of-arts technology,the research on the automatic alignments at the discourse level,paragraph level and sentence level between the Chinese and Tibetan vi-texts are necessary.This paper introduces a project on the Sino-Tibetanbilingual corpus alignments,the Chinese-Tibetan bilingual dictionary extraction,and the key technologies in the corpus collection,storage and retrieval.The project has accomplished such technologies as the Tibetan coding identification and conversion,th Tibetan corpus construction,the Sino-Tibetan bilingual dictionary extraction,the Sino-Tibetan sentence alignment and word alignments,and finally achieving a large-scale aligned Sino-Tibetan bilingual corpus for Chinese-Tibetan machine translation.

关 键 词:汉藏机器翻译 汉藏双语语料库 编码 对齐技术 

分 类 号:TP391[自动化与计算机技术—计算机应用技术]

 

参考文献:

正在载入数据...

 

二级参考文献:

正在载入数据...

 

耦合文献:

正在载入数据...

 

引证文献:

正在载入数据...

 

二级引证文献:

正在载入数据...

 

同被引文献:

正在载入数据...

 

相关期刊文献:

正在载入数据...

相关的主题
相关的作者对象
相关的机构对象