EBMT中高效的维吾尔语单词散列表构造算法  被引量:3

Efficient Hash Algorithm for Uyhur Words in EBMT

在线阅读下载全文

作  者:田生伟[1] 吐尔根.依布拉音 禹龙[2] 

机构地区:[1]新疆大学信息科学与工程学院,新疆乌鲁木齐830046 [2]新疆大学网络中心,新疆乌鲁木齐830046

出  处:《中文信息学报》2009年第4期124-128,共5页Journal of Chinese Information Processing

基  金:国家自然科学基金资助项目(60663006)

摘  要:基于实例的机器翻译(EBMT)是一种高效的机器翻译方法,如何快速地从海量实例模式库中找出与待翻译句子相似的候选实例,是EBMT研究的关键技术之一。统计分析维吾尔语单词字母的分布特征,构造了基于维吾尔语单词的倒排索引散列表,在等概率条件下,平均查找长度为1.59;依据散列冲突的同义词在维吾尔语料中出现的频率作为权值,提出了一种新颖的解决散列冲突的算法:同义词次优树算法。实验显示,算法的性能比传统的顺序查找和二分查找算法分别高出了27.5%,21.8%,证明了该算法在EBMT中有较高的检索效率。The efficient retrieval of the candidate translation example from the large scale translation example base is fundamental issue in the study of EBMT. This paper proposes an Uyhur t Hash function designed according to the distribution of the uyhur words and characters, which, on the equiprobable condition, facilitate an average search length of 1.59. To resovle the conflict in the Hash table, a new mechanism name second optimal tree for synonym is established as regards to the frequency of the conflicting Urhur words. The experiments show that the proposed approach achieves 27.5% and 21.8% improvement in the performance compared with the sequential chain and binary search approach respectively.

关 键 词:计算机应用 中文信息处理 EBMT 散列 平均查找长度 次优树 

分 类 号:TP391[自动化与计算机技术—计算机应用技术]

 

参考文献:

正在载入数据...

 

二级参考文献:

正在载入数据...

 

耦合文献:

正在载入数据...

 

引证文献:

正在载入数据...

 

二级引证文献:

正在载入数据...

 

同被引文献:

正在载入数据...

 

相关期刊文献:

正在载入数据...

相关的主题
相关的作者对象
相关的机构对象