用于构建维吾尔文语料库的中文件格式转换技术研究  被引量:2

RESEARCH ON FILE FORMAT CONVERSION TECHNOLOGY FOR CONSTRUCTING UYGHUR LANGUAGE CORPUS

在线阅读下载全文

作  者:艾斯卡尔.亚克甫 艾孜尔古丽[3] 玉素甫.艾白都拉 

机构地区:[1]中国海洋大学信息科学与工程学院,山东青岛266000 [2]新疆维吾尔自治区大中专招生办公室,新疆乌鲁木齐830091 [3]新疆师范大学,新疆乌鲁木齐830054

出  处:《计算机应用与软件》2012年第6期14-16,共3页Computer Applications and Software

基  金:国家自然科学基金项目(61063036);国家自然科学基金委重点项目(61132009);国家科技部科技支撑计划项目(2009BAH41B00);国家教育部社科基金项目(10YJA740121);国家语委科研规划项目(YB115-38);国家语委"十二五"科研规划项目(YB125-45);新疆维吾尔自治区社科基金项目(10BXW105)

摘  要:研究在维吾尔文字语料库建立过程中,从MS-DOS系统上排版的书刊、杂志中获得维吾尔语单词,并转换到Windows环境上RTF格式的一种快速解决方法,然后提出维吾尔文字Unicode代码对应的RTF代码表和动态生成维吾尔文RTF文件的简单方法。实践证明这种方法有助于提高语料库构造中的大量单词收集的效率和质量。In this paper we mainly study the fast solution for constructing Uighur text corpus.In the process of construction,the Uyghur language words are captured from books and magazines typeset in MS-DOS system and then converted to RTF format in WINDOWS environment.Then we put forward the RTF code generation timers corresponding to Unicode code of Uygur characters and a simple method of dynamic generation of Uyghur RTF files.Practice proves that this kind of method helps the improvement of efficiency and quality of the collection of a great amount of words during the construction of corpus.

关 键 词:文件转换 RTF(Rich TEXT Format) 维吾尔文 

分 类 号:TP39[自动化与计算机技术—计算机应用技术]

 

参考文献:

正在载入数据...

 

二级参考文献:

正在载入数据...

 

耦合文献:

正在载入数据...

 

引证文献:

正在载入数据...

 

二级引证文献:

正在载入数据...

 

同被引文献:

正在载入数据...

 

相关期刊文献:

正在载入数据...

相关的主题
相关的作者对象
相关的机构对象