多策略英汉词对齐方法的研究  被引量:5

Bilingual word alignment of multi-strategy

在线阅读下载全文

作  者:周蓝海[1] 蔡东风[1] 

机构地区:[1]沈阳航空工业学院自然语言处理研究室,辽宁沈阳110034

出  处:《计算机工程与设计》2009年第17期4138-4140,F0003,共4页Computer Engineering and Design

基  金:国家863高技术研究发展计划基金项目(2006AA01Z1);教育部科学技术研究重点基金项目(207148)

摘  要:词对齐技术在机器翻译,特别是在统计机器翻译中起着重要作用。词形、语义、句法的多样性和灵活性,未登陆词及分词错误等不利因素,直接或间接影响了词对齐的质量。多策略英汉词对齐方法,融合了基于词典、GIZA++以及基于知网的词对齐方法。通过对双语语料和多策略对齐结果的分析,利用集合形式的运算指导词对齐的消歧过程。实验结果表明,该方法在对齐结果上F值较IBM模型提高近10%,达到了85.07%,对齐错误率降低10%。该方法根据不同算法对齐结果的可靠性和相容性,实现了各种算法的优势互补。Aligning bilingual corpus at the word level is very important to statistical machine translation (SMT). The diversity and feasibility of morphology, semantics and syntax, with out-of-vocabulary words and segmentation error directly or indirectly affect the word alignment. An efficient multi-strategy alignment algorithm is presented, by combining the lexical information, GIZA++ results and HowNet. A set form operation is used to guide the disambiguation process of word alignment, according to the analysis of the bilingual corpus and the alignment result. The experiments show that F-score is 85.07% and increased by 10% over optimized IBM model, and alignment error ratio is decreased by 10%. The strategy complements the advantages of those algorithms according to the reliability and consistence of them.

关 键 词:词对齐 多策略 统计机器翻译 双语词典 知网 锚点 

分 类 号:TP391[自动化与计算机技术—计算机应用技术]

 

参考文献:

正在载入数据...

 

二级参考文献:

正在载入数据...

 

耦合文献:

正在载入数据...

 

引证文献:

正在载入数据...

 

二级引证文献:

正在载入数据...

 

同被引文献:

正在载入数据...

 

相关期刊文献:

正在载入数据...

相关的主题
相关的作者对象
相关的机构对象