检索规则说明:AND代表“并且”;OR代表“或者”;NOT代表“不包含”;(注意必须大写,运算符两边需空一格)
检 索 范 例 :范例一: (K=图书馆学 OR K=情报学) AND A=范并思 范例二:J=计算机应用与软件 AND (U=C++ OR U=Basic) NOT M=Visual
机构地区:[1]中国科学院自动化研究所模式识别国家重点实验室,北京100080
出 处:《中文信息学报》2003年第2期21-27,共7页Journal of Chinese Information Processing
基 金:国家"973"项目 (G19980 30 5 0 1A - 0 6 );国家自然科学基金重点资助项目 (6 9835 0 0 3);国家自然科学基金资助项目 (6 0 2 72 0 4 1)
摘 要:基于语块的处理方法是近年来自然语言处理领域兴起的一条新思路。但是 ,要将其应用于口语翻译当中 ,还需按照口语特点对涉及双语的语块概念做出合理界定。本文在已有单语语块定义的基础上 ,根据中、英文差异和口语翻译特性 ,从句法和语义两个层次提出了一种汉英双语语块概念 ,并对其特点进行了分析。同时 ,针对中、英文并行语料库 ,建立了一套计算机自动划分与人工校对相结合的双语语块加工方法。应用该方法 ,对汉英句子级对齐的口语语料进行双语语块划分和对整 ,并以此为基础进行了基于双语语块的口语统计机器翻译实验。结果表明 ,本文提出的双语语块定义符合口语翻译的实际需要 ,使用基于双语语块的语料处理方法 。Chunking is a useful step for natural language processing.The paper puts forward a definition of bilingual chunks for Chinese-English spoken-language translation,based on both the characteristics of spoken-language and the differences between Chinese and English.Some special features of these chunks are also analyzed.Based on the definition and analysis,a method is proposed to segment the chunks in bilingual corpora.This method includes two steps of the automatic chunking and the manually modification.Using this method we got a chunk-aligned Chinese-English bilingual corpus.A series of chunk-based statistical machine translation experiments are then conducted which shows that the proposed definition and the bi-chunking method can lead to great improvement to the quality of the Chinese-English spoken-language translation.
关 键 词:人工智能 机器翻译 统计机器翻译 口语翻译 语料库 语块
分 类 号:TP391.2[自动化与计算机技术—计算机应用技术]
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在链接到云南高校图书馆文献保障联盟下载...
云南高校图书馆联盟文献共享服务平台 版权所有©
您的IP:216.73.216.222