检索规则说明:AND代表“并且”;OR代表“或者”;NOT代表“不包含”;(注意必须大写,运算符两边需空一格)
检 索 范 例 :范例一: (K=图书馆学 OR K=情报学) AND A=范并思 范例二:J=计算机应用与软件 AND (U=C++ OR U=Basic) NOT M=Visual
机构地区:[1]天津大学计算机科学与技术学院,天津300072
出 处:《计算机科学》2009年第10期192-196,共5页Computer Science
基 金:国家自然科学基金项目(60603027);微软亚洲研究院(MSRA)资助
摘 要:目前基于短语的统计机器翻译模型很少将非连续短语的情况考虑在内,由此造成翻译结果在目标语言中的意义变化或缺失。以非连续介词短语为例,提供了一种短语模板抽取算法。首先采用基于规则的方法,抽取出中文非连续介词短语模板,而后借助双语对齐语料和介词_方位词翻译表,获得模板对应的英文翻译。最终形成的双语模板被加入短语翻译表中。在标准测试语料上的对比实验表明,加入非连续短语模板后,译文更加符合语法规范,而翻译结果也取得了相对稳定的提高。The discontinuous phrases are seldom taken into account in present phrase-based statistical machine translation models, which leads to the distortion or omission of translation results. This paper took discontinuous preposition phrases for example and proposed a phrase template extraction algorithm. It first extracted phrase templates from chi- nese corpus based on some specified rules, and then got their english translations with a bilingual alignment corpus and a preposition and location-word translation table. The generated bilingual templates were then added into the translation table. Comparative experiments in standard test corpus indicate that when these discontinuous phrase templates are applied in the translation system, the resulted translations are well comply with grammar specifications, and the translation quality is also improved.
关 键 词:统计机器翻译 短语模板 非连续介词短语 模板抽取
分 类 号:TP391[自动化与计算机技术—计算机应用技术]
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在链接到云南高校图书馆文献保障联盟下载...
云南高校图书馆联盟文献共享服务平台 版权所有©
您的IP:216.73.216.28