检索规则说明:AND代表“并且”;OR代表“或者”;NOT代表“不包含”;(注意必须大写,运算符两边需空一格)
检 索 范 例 :范例一: (K=图书馆学 OR K=情报学) AND A=范并思 范例二:J=计算机应用与软件 AND (U=C++ OR U=Basic) NOT M=Visual
机构地区:[1]山西大学计算机科学系,太原030000 [2]中国科学院自动化研究所,北京100080
出 处:《中文信息学报》2003年第5期6-12,共7页Journal of Chinese Information Processing
基 金:国家973项目(G199803050IA-06;G199803050IA-04)
摘 要:本文提出了一种在汉英双语语料库句子对齐的基础上,自动进行汉英名词短语划分和对应的方法。该方法的主要特点在于在无需严格识别汉语名词短语的情况下,对高频短语和低频短语分别进行处理,对于高频短语,利用英语短语和汉语词在双语语料库中的关联信息,采用一种迭代重估算法进行双语短语的对应;对于低频短语,根据双语词典中源词和译词之间的对应信息,结合一套人工编写的句法规则进行双语低频短语的对应。该方法能够从整体上把握对应信息,并具有很高的覆盖率。In this paper, a method is proposed to align bilingual noun phrases automatically in sentencealigned ChineseEnglish bilingual corpus. The characteristic of our method is to deal with highfrequency noun phrases and lowfrequency noun phrases separately without recognizing Chinese noun phrase accurately. Highfrequency noun phrases in English corpus are aligned to those in Chinese corpus using an iterative reevaluation algorithm according to the cooccurrence between English phrases and Chinese words in bilingual corpora; Lowfrequency noun phrases are aligned using the manual rules and Dice coefficient which is based on EnglishChinese dictionary. This method can take into account the alignment information on the whole, and acquire the result with high coverage rate.
关 键 词:人工智能 机器翻译 名词短语识别 短语对齐 迭代重估 相似度
分 类 号:TP391.1[自动化与计算机技术—计算机应用技术]
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在链接到云南高校图书馆文献保障联盟下载...
云南高校图书馆联盟文献共享服务平台 版权所有©
您的IP:216.73.216.229