基于锚点词对的双语词对齐算法  被引量:10

Word-Alignment Algorithm Based on Anchor Word-Pair

在线阅读下载全文

作  者:张孝飞[1] 陈肇雄[1] 黄河燕[1] 王建德[1] 

机构地区:[1]中国科学院计算机语言信息工程研究中心,北京100083

出  处:《小型微型计算机系统》2006年第2期330-334,共5页Journal of Chinese Computer Systems

基  金:国家自然科学基金项目(60272088;60502048)资助;国家"八六三"计划基金项目(2002AA117010-02)资助

摘  要:双语词对齐是指在源、译文中找到词汇级的对译关系,是自然语言处理领域一个非常有用而又比较困难的研究课题,其中涉及词法、语法、语义以及英汉语言间的固有差异和翻译习惯等诸多问题.文章在词法分析的基础上,利用有限的语言资源(主要只使用了一部双语词典),采取多级匹配和消歧策略,将词对齐问题转化为迭代求解锚点词对的过程,使得词对齐既有较高的准确率又有较高的召回率.经过对真实语料的测试,词对齐准确率达93.0%,召回率达77.3%,F值达84.2%,基本上满足了有关应用的实际要求.Word-alignment algorithm is to find the corresponding translation of words between the source language sentence and the target language sentence. It is a very useful and difficult task which involves in many problems such as accordance,syntax, sementics and inherent difference between and English and Chinese ,and human's translation habits,etc. In this paper ,a new algorithm is proposed based on accidence analysis: the word-alignment problem is transformed to an iterative solution of anchor word-pair by multi-level match and disambiguity algorithm which only use a bilingual dictionary. The experiment results show that the word-alignment precision is 93. 0% ,recall is 77.3%and F-score is 84.2%.

关 键 词:自然语言处理 双语词对齐 语料 锚点词对 

分 类 号:TP391[自动化与计算机技术—计算机应用技术]

 

参考文献:

正在载入数据...

 

二级参考文献:

正在载入数据...

 

耦合文献:

正在载入数据...

 

引证文献:

正在载入数据...

 

二级引证文献:

正在载入数据...

 

同被引文献:

正在载入数据...

 

相关期刊文献:

正在载入数据...

相关的主题
相关的作者对象
相关的机构对象