检索规则说明:AND代表“并且”;OR代表“或者”;NOT代表“不包含”;(注意必须大写,运算符两边需空一格)
检 索 范 例 :范例一: (K=图书馆学 OR K=情报学) AND A=范并思 范例二:J=计算机应用与软件 AND (U=C++ OR U=Basic) NOT M=Visual
作 者:才智杰[1] 才让卓玛[1,2] CAI Zhijie CAI Rangzhuoma(Key Laboratory of Tibetan information processing, Ministry of Education, Qinghai Normal University, Xining, Qinghai 810008, China College of Computer Science, Shaanxi Normal University, Xi'an, Shanxi 710062, China)
机构地区:[1]青海师范大学藏文信息处理省部共建教育部重点实验室,青海西宁810008 [2]陕西师范大学计算机科学学院,陕西西安710062
出 处:《中文信息学报》2016年第4期98-105,共8页Journal of Chinese Information Processing
基 金:国家自然科学基金(61163018;61262051;61363055);国家社科基金(13BYY141);教育部"春晖计划"合作科研项目(Z2012093);"长江学者和创新团队发展计划"创新团队资助项目(IRT1068);青海省科技厅应用基础研究计划基金(2011-Z-755;2011-Z-754);青海师范大学科研创新计划基金资助项目
摘 要:字是语言文字的基本组成单位,字形结构统计研究是自然语言处理的基础,为字属性分析、输入法设计、排序、语音合成和字符信息熵研究等提供理论依据。该文通过分析藏文字形结构的特征,对藏文字的字形结构分成独体字和合体字,合体字按其构件的结构位和所含构件数进行分类。设计了藏文字形结构统计系统模型和算法,从约含8 500万藏文字的450M语料中对藏文字形结构进行统计,建立了藏文字形结构分布统计表,并对统计结果进行了分析。Researching on the distribution of Tibetan character forms is the foundation of Natural languages processing,provides a theoretical basis for word attribute analysis,input design,sorting,speech synthesis and character information entropy studies.This paper classified the Tibetan character forms into single-element character and combined-element character,and further classify the combined-element characer by their artifacts' structures and numbers.This paper conducts statistical analysis of glyph structure from 85 million Tibetan words in 450 Mcorpus containing,establishes distribution statistics of Tibetan glyph structure.
关 键 词:中文信息处理 字形结构 独体字 合体字 频度统计
分 类 号:TP391[自动化与计算机技术—计算机应用技术]
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在链接到云南高校图书馆文献保障联盟下载...
云南高校图书馆联盟文献共享服务平台 版权所有©
您的IP:216.73.216.3