检索规则说明:AND代表“并且”;OR代表“或者”;NOT代表“不包含”;(注意必须大写,运算符两边需空一格)
检 索 范 例 :范例一: (K=图书馆学 OR K=情报学) AND A=范并思 范例二:J=计算机应用与软件 AND (U=C++ OR U=Basic) NOT M=Visual
机构地区:[1]沈阳航空工业学院自然语言处理研究室,辽宁沈阳110034
出 处:《计算机工程与设计》2009年第17期4138-4140,F0003,共4页Computer Engineering and Design
基 金:国家863高技术研究发展计划基金项目(2006AA01Z1);教育部科学技术研究重点基金项目(207148)
摘 要:词对齐技术在机器翻译,特别是在统计机器翻译中起着重要作用。词形、语义、句法的多样性和灵活性,未登陆词及分词错误等不利因素,直接或间接影响了词对齐的质量。多策略英汉词对齐方法,融合了基于词典、GIZA++以及基于知网的词对齐方法。通过对双语语料和多策略对齐结果的分析,利用集合形式的运算指导词对齐的消歧过程。实验结果表明,该方法在对齐结果上F值较IBM模型提高近10%,达到了85.07%,对齐错误率降低10%。该方法根据不同算法对齐结果的可靠性和相容性,实现了各种算法的优势互补。Aligning bilingual corpus at the word level is very important to statistical machine translation (SMT). The diversity and feasibility of morphology, semantics and syntax, with out-of-vocabulary words and segmentation error directly or indirectly affect the word alignment. An efficient multi-strategy alignment algorithm is presented, by combining the lexical information, GIZA++ results and HowNet. A set form operation is used to guide the disambiguation process of word alignment, according to the analysis of the bilingual corpus and the alignment result. The experiments show that F-score is 85.07% and increased by 10% over optimized IBM model, and alignment error ratio is decreased by 10%. The strategy complements the advantages of those algorithms according to the reliability and consistence of them.
关 键 词:词对齐 多策略 统计机器翻译 双语词典 知网 锚点
分 类 号:TP391[自动化与计算机技术—计算机应用技术]
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在链接到云南高校图书馆文献保障联盟下载...
云南高校图书馆联盟文献共享服务平台 版权所有©
您的IP:216.73.216.249