现代维吾尔语常用词统计关键技术研究  被引量:8

Research on Key Technology for Statistics of Modern Uyghur Language

在线阅读下载全文

作  者:艾孜尔古丽[1] 努尔艾合买提 玉素甫.艾白都拉 

机构地区:[1]新疆师范大学计算机科学与技术学院,新疆乌鲁木齐830054

出  处:《中文信息学报》2014年第5期192-197,共6页Journal of Chinese Information Processing

基  金:新疆维吾尔自治区自然科学基金(2014211A045);教育部人文社会科学一般项目(14YJC740001);新疆维吾尔自治区高校科研计划青年教师科研启动基金(20140706213103147);国家自然科学基金(61132009);国家自然科学基金项目(61262066);国家语委"十二五"科研规划项目(YB125-45)

摘  要:本文研究了构建现代维吾尔语语料库的关键技术与方法,特别是现代维吾尔语语料库的构建,并对现代维吾尔语语料预处理技术,现代维吾尔语语料统计技术,现代维吾尔语词干提取技术,现代维吾尔语数据分析技术进行了研究;研制了现代维吾尔语常用词候选表,从词语的使用频度和词语的分布两方面对词语进行了基本考察,将维吾尔语词语的"词种数、频次、频率、文本数、词长"作为常用词候选表的依据。This paper studies key technologies for the modern Uyghur language corpus construction, in particular the collection of modern Uyghur language corpus, and the pre-proeessing of modern Uyghur corpus, the statistical technique in modern Uyghur corpus, the stemming of modern Uyghur and the analysis of modern Uyghur data. To develope a candidate list for modern Uyghur common words, this paper examines the words in two aspects: the frequency and distribution, specifically including the word species, frequency , frequency rate, document coverage word length.

关 键 词:现代维吾尔语 语料库 常用词候选表 计量分析 

分 类 号:TP391[自动化与计算机技术—计算机应用技术]

 

参考文献:

正在载入数据...

 

二级参考文献:

正在载入数据...

 

耦合文献:

正在载入数据...

 

引证文献:

正在载入数据...

 

二级引证文献:

正在载入数据...

 

同被引文献:

正在载入数据...

 

相关期刊文献:

正在载入数据...

相关的主题
相关的作者对象
相关的机构对象