基于Web数据的特定领域双语词典抽取  被引量:11

Bilingual Dictionary Extraction for Special Domain Based on Web Data

在线阅读下载全文

作  者:张永臣[1] 孙乐[1] 李飞[1] 李文波[1] 西野文人 于浩 方高林 

机构地区:[1]中国科学院软件研究所中文信息中心中国科学院研究生院,北京100080 [2]富士通研究开发中心有限公司,北京100081

出  处:《中文信息学报》2006年第2期16-23,共8页Journal of Chinese Information Processing

基  金:富士通研究开发中心合作项目;国家自然科学基金资助项目(60203007);国家"八六三"高技术研究发展计划资助项目(2003AA1Z2110);北京市科技新星计划资助项目(H020820790130)

摘  要:双语词典是跨语言检索以及机器翻译等自然语言处理应用的基础资源。本文提出了一种从非平行语料中抽取特定领域双语词典的算法。首先给出了算法的基本假设并回顾了相关的研究方法,然后详细给出了利用词间关系矩阵法从特定领域非平行语料中抽取双语词典的过程,最后通过大量实验分析了种子词选择对词典抽取结果的影响,实验结果表明种子词的数量和频率对词典抽取结果有积极作用。Bilingual dictionary is the base of many NLP applications such as multi-lingual information retrieval and machine translation. This paper proposes a method of extracting bilingual dictionary for the special domain from the non-parallel corpora: first, discusses the fundamental postulate and reviews the related research, second, presents an algorithm of extracting the bilingual dictionary for the special domain based on the non-parallel corpora with the word relation matrix, and finally, analyzes the influence of the seed word on the extraction of the bilingual dictionary with abundant of experimentation. The experiments demonstrate that the quantity and average frequency of the seed word pairs contribute to the results effectively.

关 键 词:计算机应用 中文信息处理 双语词典 词间关系矩阵 非平行语料 种子词 

分 类 号:TP391.2[自动化与计算机技术—计算机应用技术]

 

参考文献:

正在载入数据...

 

二级参考文献:

正在载入数据...

 

耦合文献:

正在载入数据...

 

引证文献:

正在载入数据...

 

二级引证文献:

正在载入数据...

 

同被引文献:

正在载入数据...

 

相关期刊文献:

正在载入数据...

相关的主题
相关的作者对象
相关的机构对象