统计机器翻译删词问题研究  被引量:2

Research on Word Deletion Issue in Statistical Machine Translation

在线阅读下载全文

作  者:李强[1] 何燕龙 栾爽[3] 肖桐[1,4] 朱靖波[1,4] 

机构地区:[1]东北大学信息科学与工程学院,自然语言处理实验室,辽宁沈阳110819 [2]中国民族语文翻译中心,北京100080 [3]辽宁大学外国语学院,辽宁沈阳110036 [4]杭州雅拓网络技术有限公司,浙江杭州310012

出  处:《中文信息学报》2014年第5期125-132,共8页Journal of Chinese Information Processing

基  金:国家自然科学基金(61272376;61300097);中国博士后基金(2013M530131)

摘  要:该文对基于短语的统计机器翻译模型的删词问题进行研究与分析,使用人工评价的方式将删词错误分为3类。该文通过两种方法,即基于频次的方法和基于词性标注的方法,对源语言句子中关键词汇进行识别。通过对传统的短语对抽取算法中引入源语言对空关键词汇的约束来缓解删词错误问题。自动评价方法以及人工评价方法证明,该方法在汉英翻译任务以及英汉翻译任务中显著的缓解了删词错误问题,同时得到一个精简的短语翻译表。This paper addresses the word deletion issue in phrase-based machine translation. After accounting word deletion errors for three causes from the persective of human reading, we propose to introduce constraints on unaligned words of source language in phrase extraction to deal with this issue. Two methods are presented for the design of the constraints, including a frequency-based method and a part-of-speech-based method. Automatic and human evaluations demonstrate promising improvements in translation quality on both the Chinese-to-English and the English-to-Chinese translation tasks, on the basis of a more compact phrase tables.

关 键 词:统计机器翻译 删词问题 人工评价 

分 类 号:TP391[自动化与计算机技术—计算机应用技术]

 

参考文献:

正在载入数据...

 

二级参考文献:

正在载入数据...

 

耦合文献:

正在载入数据...

 

引证文献:

正在载入数据...

 

二级引证文献:

正在载入数据...

 

同被引文献:

正在载入数据...

 

相关期刊文献:

正在载入数据...

相关的主题
相关的作者对象
相关的机构对象