基于非连续短语的统计翻译模型研究  被引量:5

Research on Non-contiguous Phrase-based Model for Statistical Machine Translation

在线阅读下载全文

作  者:张大鲲[1] 张玮[1] 冯元勇[1] 孙乐[1] 

机构地区:[1]中国科学院软件研究所中文信息处理中心,北京100080

出  处:《中文信息学报》2007年第1期101-108,共8页Journal of Chinese Information Processing

基  金:国家自然科学基金资助项目(60203007)

摘  要:目前统计机器翻译的主流方法仍然是基于短语的翻译模型。然而,该模型并没有考虑对非连续短语的处理。本文提出了一种基于非连续短语的统计翻译模型,利用该模型可以使翻译的基本单元从连续短语扩展到带有间隔的非连续短语,以更好地解决词语翻译时的上下文依赖问题。同时,由于该方法抽取的短语数量较少,也使得解码的效率得到了提高。实验表明,在效率提高的情况下,非连续短语模型可以取得与层次型短语模型相当的翻译结果。The phrase-based statistical machine translation model is still the most popular model nowadays. However, non-contiguous phrases are not taken into account in this model. A statistical machine translation model based on non-contiguous phrases is proposed in this paper. The units of translation are extended from contiguous phrases to phrases with intervals in order to take advantage of the context dependence. With the less numbers of phrases, the efficiency of the decoder in our model is also improved. Experiments show that with a better efficiency the translation results of our non-contiguous phrase-based model and hierarchical model are comparable.

关 键 词:人工智能 机器翻译 非连续短语 统计机器翻译 短语模型 

分 类 号:TP391[自动化与计算机技术—计算机应用技术]

 

参考文献:

正在载入数据...

 

二级参考文献:

正在载入数据...

 

耦合文献:

正在载入数据...

 

引证文献:

正在载入数据...

 

二级引证文献:

正在载入数据...

 

同被引文献:

正在载入数据...

 

相关期刊文献:

正在载入数据...

相关的主题
相关的作者对象
相关的机构对象