基于词典和统计的语料库词汇级对齐算法  被引量:8

Aligning Algorithm for a Corpus at Word Level Based on Dictionary and Statistics

在线阅读下载全文

作  者:刘小虎[1] 吴葳[1] 李生[1] 赵铁军[1] 蔡萌[1] 鞠英杰[2] 

机构地区:[1]哈尔滨工业大学计算机科学与工程系 [2]黑龙江大学信息管理系

出  处:《情报学报》1997年第1期21-27,共7页Journal of the China Society for Scientific and Technical Information

摘  要:语料库词汇一级的对齐,对于充分发挥语料库的作用意义重大。本文对汉英句子一级对齐的语料库,提出了借助于词典和语料库统计信息的有效的对齐算法。首先利用词典的词的译文及其同义词在目标语中寻找对齐;其次利用汉语词汇与英语单词的共现统计信息以最大的互信息寻找对齐词汇以及相邻短语。Aligning the bilingual corpus at word level is very important to take the advantages of corpus.This paper presents an efficient aligning algorithm for a corpus aligned at sentence level,using the lexical information and statistic information. First,the information of dictionary and thesaurus is used.Second,the mutual information between Chinese words(or adjacent phrases)and English words(of adjacent phrases)is used.Our experiments has proved this method to be effective.

关 键 词:语料库 词汇级对齐 共现概率 信息处理 

分 类 号:TP391[自动化与计算机技术—计算机应用技术]

 

参考文献:

正在载入数据...

 

二级参考文献:

正在载入数据...

 

耦合文献:

正在载入数据...

 

引证文献:

正在载入数据...

 

二级引证文献:

正在载入数据...

 

同被引文献:

正在载入数据...

 

相关期刊文献:

正在载入数据...

相关的主题
相关的作者对象
相关的机构对象