检索规则说明:AND代表“并且”;OR代表“或者”;NOT代表“不包含”;(注意必须大写,运算符两边需空一格)
检 索 范 例 :范例一: (K=图书馆学 OR K=情报学) AND A=范并思 范例二:J=计算机应用与软件 AND (U=C++ OR U=Basic) NOT M=Visual
作 者:张永臣[1] 孙乐[1] 李飞[1] 李文波[1] 西野文人 于浩 方高林
机构地区:[1]中国科学院软件研究所中文信息中心中国科学院研究生院,北京100080 [2]富士通研究开发中心有限公司,北京100081
出 处:《中文信息学报》2006年第2期16-23,共8页Journal of Chinese Information Processing
基 金:富士通研究开发中心合作项目;国家自然科学基金资助项目(60203007);国家"八六三"高技术研究发展计划资助项目(2003AA1Z2110);北京市科技新星计划资助项目(H020820790130)
摘 要:双语词典是跨语言检索以及机器翻译等自然语言处理应用的基础资源。本文提出了一种从非平行语料中抽取特定领域双语词典的算法。首先给出了算法的基本假设并回顾了相关的研究方法,然后详细给出了利用词间关系矩阵法从特定领域非平行语料中抽取双语词典的过程,最后通过大量实验分析了种子词选择对词典抽取结果的影响,实验结果表明种子词的数量和频率对词典抽取结果有积极作用。Bilingual dictionary is the base of many NLP applications such as multi-lingual information retrieval and machine translation. This paper proposes a method of extracting bilingual dictionary for the special domain from the non-parallel corpora: first, discusses the fundamental postulate and reviews the related research, second, presents an algorithm of extracting the bilingual dictionary for the special domain based on the non-parallel corpora with the word relation matrix, and finally, analyzes the influence of the seed word on the extraction of the bilingual dictionary with abundant of experimentation. The experiments demonstrate that the quantity and average frequency of the seed word pairs contribute to the results effectively.
关 键 词:计算机应用 中文信息处理 双语词典 词间关系矩阵 非平行语料 种子词
分 类 号:TP391.2[自动化与计算机技术—计算机应用技术]
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在链接到云南高校图书馆文献保障联盟下载...
云南高校图书馆联盟文献共享服务平台 版权所有©
您的IP:216.73.216.90