汉英双语语料库中名词短语的自动对应  被引量:7

Noun Phrase Alignment in Chinese-English Bilingual Corpora

在线阅读下载全文

作  者:刘冬明[1] 赵军[2] 杨尔弘[1] 

机构地区:[1]山西大学计算机科学系,太原030000 [2]中国科学院自动化研究所,北京100080

出  处:《中文信息学报》2003年第5期6-12,共7页Journal of Chinese Information Processing

基  金:国家973项目(G199803050IA-06;G199803050IA-04)

摘  要:本文提出了一种在汉英双语语料库句子对齐的基础上,自动进行汉英名词短语划分和对应的方法。该方法的主要特点在于在无需严格识别汉语名词短语的情况下,对高频短语和低频短语分别进行处理,对于高频短语,利用英语短语和汉语词在双语语料库中的关联信息,采用一种迭代重估算法进行双语短语的对应;对于低频短语,根据双语词典中源词和译词之间的对应信息,结合一套人工编写的句法规则进行双语低频短语的对应。该方法能够从整体上把握对应信息,并具有很高的覆盖率。In this paper, a method is proposed to align bilingual noun phrases automatically in sentencealigned ChineseEnglish bilingual corpus. The characteristic of our method is to deal with highfrequency noun phrases and lowfrequency noun phrases separately without recognizing Chinese noun phrase accurately. Highfrequency noun phrases in English corpus are aligned to those in Chinese corpus using an iterative reevaluation algorithm according to the cooccurrence between English phrases and Chinese words in bilingual corpora; Lowfrequency noun phrases are aligned using the manual rules and Dice coefficient which is based on EnglishChinese dictionary. This method can take into account the alignment information on the whole, and acquire the result with high coverage rate.

关 键 词:人工智能 机器翻译 名词短语识别 短语对齐 迭代重估 相似度 

分 类 号:TP391.1[自动化与计算机技术—计算机应用技术]

 

参考文献:

正在载入数据...

 

二级参考文献:

正在载入数据...

 

耦合文献:

正在载入数据...

 

引证文献:

正在载入数据...

 

二级引证文献:

正在载入数据...

 

同被引文献:

正在载入数据...

 

相关期刊文献:

正在载入数据...

相关的主题
相关的作者对象
相关的机构对象