检索规则说明:AND代表“并且”;OR代表“或者”;NOT代表“不包含”;(注意必须大写,运算符两边需空一格)
检 索 范 例 :范例一: (K=图书馆学 OR K=情报学) AND A=范并思 范例二:J=计算机应用与软件 AND (U=C++ OR U=Basic) NOT M=Visual
作 者:奚宁[1,2] 李博渊[1,2] 黄书剑[1,2] 陈家骏[1,2]
机构地区:[1]南京大学软件新技术国家重点实验室,江苏南京210093 [2]南京大学计算机科学与技术系,江苏南京210093
出 处:《中文信息学报》2012年第3期54-58,78,共6页Journal of Chinese Information Processing
基 金:国家自然科学基金项目资助(61003112;61170181)
摘 要:汉语分词是搭建汉语到其他语言的统计机器翻译系统的一项重要工作。从单语语料中训练得到的传统分词模型并不一定完全适合机器翻译[1]。该文提出了一种基于单语和双语知识的适应于统计机器翻译系统的分词方法。首先利用对齐可信度的概念从双语字对齐语料中抽取可信对齐集合,然后根据可信对齐集合对双语语料中的中文部分重新分词;接着将重新分词的结果和单语分词工具的分词结果相融合,得到新的分词结果,并将其作为训练语料,利用条件随机场模型训练出一个融合了单双语知识的分词工具。该文用该工具对机器翻译所需的训练集、开发集和测试集进行分词,并在基于短语的统计机器翻译系统上进行实验。实验结果表明,该文所提的方法提高了系统性能。Chinese word segmentation is the first phase in building statistical machine translation(SMT) systems from Chinese into other languages.But the Chinese word segmenters trained from monolingual corpus are not necessarily suitable for SMT systems.Therefore,it is necessary to build a MT-motivated Chinese word segmenter in order to improve the quality of translation.In the paper,we incorporate two kinds of knowledge to train a Chinese word segmenter: the first comes from the Chinese-character-based bilingual alignment;and the other comes from conventional monolingual Chinese word segmentation.Both kinds of knowledge are jointly employed to train a MT-motivated word segmenter using Conditional Random Fields.In the experiment,we segment the Chinese portions of the training,development and test sets with the proposed segmenter,and built a phrase-based machine translation system.The results show an effective improvement over the baselines in terms of translation quality.
分 类 号:TP391[自动化与计算机技术—计算机应用技术]
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在链接到云南高校图书馆文献保障联盟下载...
云南高校图书馆联盟文献共享服务平台 版权所有©
您的IP:216.73.216.222