检索规则说明:AND代表“并且”;OR代表“或者”;NOT代表“不包含”;(注意必须大写,运算符两边需空一格)
检 索 范 例 :范例一: (K=图书馆学 OR K=情报学) AND A=范并思 范例二:J=计算机应用与软件 AND (U=C++ OR U=Basic) NOT M=Visual
作 者:尹存燕[1,2] 黄书剑[1,2] 戴新宇[1,2] 陈家骏[1,2]
机构地区:[1]南京大学计算机软件新技术国家重点实验室,南京210023 [2]南京大学计算机科学与技术系,南京210023
出 处:《小型微型计算机系统》2015年第6期1393-1397,共5页Journal of Chinese Computer Systems
基 金:国家社会科学基金重点项目(11AZD121)资助;国家自然科学基金(61003112)资助
摘 要:命名实体翻译可以有效地提高跨语言信息检索、统计机器翻译等系统的性能.双语新闻语料包含了丰富的命名实体,利用统计方法可以从中抽取出命名实体翻译.基于中日双语新闻语料,对中日命名实体的翻译特征进行了分析,基于这些特征,提出一种中日双语命名实体翻译自动抽取的方法,该方法融合了中日汉字翻译概率、片假名词汇和中文音译词汇的拼音相似度以及双语词汇共现等特征.实验表明本文方法充分利用这些特征,在语料规模不大的情况下,也可以取得较好的效果.Named entity translation can improve a lot the performance of the system like statistical machine translation or cross-lan- guage information retrieval. Bilingual news corpus contains a lot of named entities. The statistical methods can be used to extract the named entity translations from the parallel news corpus. Based on the analysis of Sino-Japanese named entity translation in the news corpus,this paper proposes a novel approach for automatic extraction of named entity translation. We find there are several valuable features that can be used:the translation probability of Japanese kanji and Chinese character,the phonetic similarity between katakana and Chinese word and the source word and target word's co-occurrence count. The experiment shows that by making the most of these features, our approach can extract the named entity translation with relatively high precision even based on small scale corpus.
关 键 词:命名实体 双语语料 对齐模型 拼音相似度 词汇共现
分 类 号:TP311[自动化与计算机技术—计算机软件与理论]
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在链接到云南高校图书馆文献保障联盟下载...
云南高校图书馆联盟文献共享服务平台 版权所有©
您的IP:216.73.216.101