检索规则说明:AND代表“并且”;OR代表“或者”;NOT代表“不包含”;(注意必须大写,运算符两边需空一格)
检 索 范 例 :范例一: (K=图书馆学 OR K=情报学) AND A=范并思 范例二:J=计算机应用与软件 AND (U=C++ OR U=Basic) NOT M=Visual
作 者:靳简明[1] 丁晓青[1] 彭良瑞[1] 王华[1]
机构地区:[1]清华大学智能技术与系统国家重点实验室电子工程系,北京100084
出 处:《中文信息学报》2005年第5期76-83,共8页Journal of Chinese Information Processing
基 金:国家自然科学基金资助项目(60241005)
摘 要:我国新疆地区使用的维吾尔文借用阿拉伯文字母书写。因为阿拉伯文字母自身书写的特点,造成维文文本的切割和识别极其困难。本文在连通体分类的基础上,结合水平投影和连通体分析的方法实现维文文本的文字行切分和单词切分。然后定位单词基线位置,计算单词轮廓和基线的距离,寻找所有可能的切点实现维文单词过切割,最后利用规则合并过切分字符。实验结果表明,字符切割准确率达到99%以上。Uyghur is spoken in Xinjiang Uyghur Autonomous Region of China, which adopts Arabic script to write. As a cursive script and other characteristics, it is very difficult to do text segmentation and recognition. In this paper, a method, which hybrid horizontal projection and connected components analysis, based on connected components classification is proposed to do text line segmentation and word segmentation of Uyghur texts. And then, the baseline position of each word is estimated. All candidate character segmentation points are fotmd out by calculating the distance between word contour and baseline. Finally, over-segmented characters are merged according to rules. Experiment shows that the character segmentation accuracy has achieved 99%.
关 键 词:计算机应用 中文信息处理 文本切割 字符切割 字符识别 维吾尔文
分 类 号:TP391[自动化与计算机技术—计算机应用技术]
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在链接到云南高校图书馆文献保障联盟下载...
云南高校图书馆联盟文献共享服务平台 版权所有©
您的IP:216.73.216.249