藏文文本编码识别方法研究  被引量:3

Research on Tibetan document encoding recognition

在线阅读下载全文

作  者:春燕[1] 曲珍[1] 

机构地区:[1]西藏大学计算机科学与技术系,拉萨850012

出  处:《计算机工程与应用》2013年第1期141-144,共4页Computer Engineering and Applications

基  金:国家教育部"长江学者与创新团队发展计划"藏文信息技术创新团队计划资助(No.RT0975)

摘  要:讨论了藏文编码识别与转换中的关键问题,介绍了藏文结构特点和统计学特征以及各种可能的识别准则,并进行分析比较。确定了使用以藏文的音节点间距规律和高频音节为特征的识别方法对方正Windows、方正Dos、同元、华光Windows、华光Dos、班智达、ASCⅡ的藏文编码方案、ISO/IEC10646基本集、国家标准扩充集A的藏文编码识别,能够正确地将藏文文本与其他语言进行区分。在对目标样本的测试中,该算法的识别率可达100%。This paper discusses critical problems with Tibetan encoding identification and conversion. According to Tibetan character structural and its statistical characteristics, it introduces various possible recognition rules, and the results are analyzed and compared. Used characteristics of distance regulation and high frequency between Tibetan syllables to determination encoding identification of FOUNDER Windows, FOUNDER Dos, Tonguer, HURGURNG Windows, HURGURNG Dos, Pandita, the Tibetan encoding based on ASCII, ISO/IEC 10646 basic set and Tibetan coded character sets-Extension A, can correctly distin-guish Tibetan text with other languages. The rate of recognition reaches 100% using these algorithms on the test documents.

关 键 词:藏文编码 藏文编码识别 音节点 

分 类 号:TP391.1[自动化与计算机技术—计算机应用技术]

 

参考文献:

正在载入数据...

 

二级参考文献:

正在载入数据...

 

耦合文献:

正在载入数据...

 

引证文献:

正在载入数据...

 

二级引证文献:

正在载入数据...

 

同被引文献:

正在载入数据...

 

相关期刊文献:

正在载入数据...

相关的主题
相关的作者对象
相关的机构对象