藏文字形结构分布研究被引量：6

Research on the Distribution of Tibetan Character Forms

作　　者：才智杰[1] 才让卓玛[1,2] CAI Zhijie CAI Rangzhuoma(Key Laboratory of Tibetan information processing, Ministry of Education, Qinghai Normal University, Xining, Qinghai 810008, China College of Computer Science, Shaanxi Normal University, Xi＇an, Shanxi 710062, China)

机构地区：[1]青海师范大学藏文信息处理省部共建教育部重点实验室,青海西宁810008 [2]陕西师范大学计算机科学学院,陕西西安710062

出　　处：《中文信息学报》2016年第4期98-105,共8页Journal of Chinese Information Processing

基　　金：国家自然科学基金(61163018;61262051;61363055);国家社科基金(13BYY141);教育部"春晖计划"合作科研项目(Z2012093);"长江学者和创新团队发展计划"创新团队资助项目(IRT1068);青海省科技厅应用基础研究计划基金(2011-Z-755;2011-Z-754);青海师范大学科研创新计划基金资助项目

摘　　要：字是语言文字的基本组成单位,字形结构统计研究是自然语言处理的基础,为字属性分析、输入法设计、排序、语音合成和字符信息熵研究等提供理论依据。该文通过分析藏文字形结构的特征,对藏文字的字形结构分成独体字和合体字,合体字按其构件的结构位和所含构件数进行分类。设计了藏文字形结构统计系统模型和算法,从约含8 500万藏文字的450M语料中对藏文字形结构进行统计,建立了藏文字形结构分布统计表,并对统计结果进行了分析。Researching on the distribution of Tibetan character forms is the foundation of Natural languages processing,provides a theoretical basis for word attribute analysis,input design,sorting,speech synthesis and character information entropy studies.This paper classified the Tibetan character forms into single-element character and combined-element character,and further classify the combined-element characer by their artifacts＇ structures and numbers.This paper conducts statistical analysis of glyph structure from 85 million Tibetan words in 450 Mcorpus containing,establishes distribution statistics of Tibetan glyph structure.

关键词：中文信息处理字形结构独体字合体字频度统计

分类号：TP391[自动化与计算机技术—计算机应用技术]

参考文献：

正在载入数据...

二级参考文献：

正在载入数据...

耦合文献：

正在载入数据...

引证文献：

正在载入数据...

二级引证文献：

正在载入数据...

同被引文献：

正在载入数据...

高级检索 检索式检索

时间限定

期刊范围

学科限定全选

高级检索 检索式检索

时间限定

期刊范围

学科限定全选

藏文字形结构分布研究被引量：6

我的收藏

参考文献：

二级参考文献：

耦合文献：

引证文献：

二级引证文献：

同被引文献：

相关期刊文献：

相关的主题

相关的作者对象

相关的机构对象

下载全文

高级检索检索式检索

时间限定

期刊范围

学科限定全选

高级检索 检索式检索

时间限定

期刊范围

学科限定全选

藏文字形结构分布研究 被引量：6

我的收藏

参考文献：

二级参考文献：

耦合文献：

引证文献：

二级引证文献：

同被引文献：

相关期刊文献：

相关的主题

相关的作者对象

相关的机构对象

下载全文

用户登录

高级检索检索式检索

藏文字形结构分布研究被引量：6