基于Ridgelet变换的多文种文档图像文种识别  

Script identification of multi-script document images based on Ridgelet transform

在线阅读下载全文

作  者:热依汗古丽·卡森木 木特力铺·马木提 吾尔尼沙·买买提 阿力木江·艾沙[2] 库尔班·吾布力[1] Reyhangul·Kasim;Mutelep·Mamut;Hornisa·Mamat;Alimjan·Aysa;Kurban·Ubul(School of Information Science and Engineering,Xinjiang University,Urumqi 830046,China;Network and Information Center,Xinjiang University,Urumqi 830046,China)

机构地区:[1]新疆大学信息科学与工程学院,新疆乌鲁木齐830046 [2]新疆大学网络与信息中心,新疆乌鲁木齐830046

出  处:《计算机工程与设计》2020年第11期3137-3142,共6页Computer Engineering and Design

基  金:国家自然科学基金项目(61563052、61363064、61163028);新疆大学博士科研启动基金项目(BS150262);新疆维吾尔自治区高校科研计划创新团队基金项目(XJEDU2017T002)。

摘  要:为提高多文种文档图像的文种识别的效率,提出基于Ridgelet变换的多文种识别方法。对文档图像数据库进行Ridgelet变换,对得到的Ridgelet(脊波变换)系数矩阵提取脊波能量特征,生成特征向量。在分类决策中选择KNN、线性判别分析以及贝叶斯3种分类模型分别对所提特征进行训练和分类。在包括英文、中文、阿拉伯文、土耳其文、吉尔吉斯斯坦文、俄文和国内少数民族文种(蒙文,藏文,维吾尔文)的9个文种共9000张文档图像数据库中进行实验,最高识别率为99.23%,验证了所提算法对多文种识别有较高的识别率和良好的鲁棒性。To improve the efficiency of text recognition of multi-language document images,a multi-text recognition method based on Ridgelet transform was proposed.The document image database was subjected to Ridgelet transform,and the ridge wave energy feature was extracted from the obtained Ridgelet coefficient matrix to generate a feature vector.In the classification decision,KNN,linear discriminant analysis and Bayesian were selected to train and classify the proposed features.The method was experimented in a database of 9000 document images in nine languages including English,Chinese,Arabic,Turkish,Kyrgyz,Russian and national minority languages(Mongolian,Tibetan,Uighur).Results show that the highest recognition rate is 99.23%,the proposed algorithm has higher recognition rate and good robustness for multi-text recognition.

关 键 词:文种识别 RIDGELET变换 纹理特征 Ridgelet系数 KNN(K最近邻算法) 

分 类 号:TP391.1[自动化与计算机技术—计算机应用技术]

 

参考文献:

正在载入数据...

 

二级参考文献:

正在载入数据...

 

耦合文献:

正在载入数据...

 

引证文献:

正在载入数据...

 

二级引证文献:

正在载入数据...

 

同被引文献:

正在载入数据...

 

相关期刊文献:

正在载入数据...

相关的主题
相关的作者对象
相关的机构对象