基于重定位的维、哈、柯文Unicode编码及多文种索引技术研究  被引量:2

Research on the Uyghur,Kazak and Kyrgyz Relocated Unicode Format and Multilingual Indexing Approach

在线阅读下载全文

作  者:维尼拉.木沙江 吐尔地.托合提 吐尔洪.吾司曼 

机构地区:[1]新疆大学信息科学与工程学院,乌鲁木齐830046

出  处:《郑州大学学报(理学版)》2009年第1期48-49,51+55,共4页Journal of Zhengzhou University:Natural Science Edition

基  金:新疆维吾尔自治区高技术研究与发展计划项目;编号200612115;新疆维吾尔自治区高校科研计划重点项目;编号XJEDU2006113

摘  要:没有语言ID的维、哈、柯文部分字母在Unicode代码区域中共享字符代码,因此在信息交换、自动分词和检索应用中,很难区分维、哈、柯文字母,存在语言上的二义性.另外,该区域中字母的顺序符合阿拉伯字母表,维、哈、柯文字母的顺序非常混乱,这对于维、哈、柯多文种数据的索引、排序和查询处理带来了很大困难.针对以上问题,研究了一种内部Unicode编码方法和基于词根的多文种索引技术.研究结果表明,这种方法完全解决了多文种信息的存储、排序等数据库管理问题,大大简化了索引技术及实现难度.Uyghur,Kazak and Kyrgyz languages have no language ID and some letters in these languages share code points in Unicode area,so it is difficult to distinguish in Uyghur,Kazak and Kyrgyz letters in information exchange,automatic word segmentation and retrieval applications.And there is linguistic ambiguity.In addition,in the region the order of letters agrees with the Arabic alphabet,Uyghur, Kazak and Kyrgyz letter is the order of chaos,so this will lead to great difficulties for Uyghur,Kazak and Kyrgyz multi...

关 键 词:UNICODE RuniForm MD5 倒排索引 

分 类 号:TP391.1[自动化与计算机技术—计算机应用技术]

 

参考文献:

正在载入数据...

 

二级参考文献:

正在载入数据...

 

耦合文献:

正在载入数据...

 

引证文献:

正在载入数据...

 

二级引证文献:

正在载入数据...

 

同被引文献:

正在载入数据...

 

相关期刊文献:

正在载入数据...

相关的主题
相关的作者对象
相关的机构对象