检索规则说明:AND代表“并且”;OR代表“或者”;NOT代表“不包含”;(注意必须大写,运算符两边需空一格)
检 索 范 例 :范例一: (K=图书馆学 OR K=情报学) AND A=范并思 范例二:J=计算机应用与软件 AND (U=C++ OR U=Basic) NOT M=Visual
机构地区:[1]延边大学计算机科学与技术学院智能信息处理研究室,吉林延吉133002
出 处:《中文信息学报》2017年第2期220-225,共6页Journal of Chinese Information Processing
基 金:吉林省科技发展计划项目(20140101186JC);国家语委2015年度科研立项项目(教语信司函[2015]21号)
摘 要:本文针对汉字、朝鲜文字和英文单词混合的文本图像提出了基于主成分分析技术以文字为单位进行文种辨识的方法。首先,通过主成分分析方法构造特征空间,并且把分割的文字映射到此空间得到重构图像;其次,计算原图像和重构图像的水平和垂直方向直方图的相对熵;最后,根据原图像和重构图像之间的欧式距离和相对熵来判别文字语种。实验表明,本文提出的方法在没有分割错误的情况下,能获得99.78%的识别准确率,有效地解决了在汉、朝、英三种文字混合构成的文档图像中文种辨识问题。A PCA based character level script identification method is proposed to identify Korean, Chinese and Eng- lish scripts in a image. First, the space of eigenvectors is constructed by using PCA, and the segmented character was reconstructed by projecting into the space. Second, relative entropy of vertical and horizontal histograms between the original and the reconstructed image is calculated. Finally, according to Euclidean distance and relative entropy between the original and the reconstructed image, the script is identified. The experiment results show that the proposed method achieves 99.78% accuracy under fully correct wrong segmentation, which successfully addresses the script identification problem in Korean, Chinese and English multi-lingual document image.
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在链接到云南高校图书馆文献保障联盟下载...
云南高校图书馆联盟文献共享服务平台 版权所有©
您的IP:3.145.95.6