一种印刷体数学公式优化提取策略  被引量:1

Printed mathematical expressions extraction method based on ICSA-SVM and K-L transform

在线阅读下载全文

作  者:张灿龙[1,2] 唐艳平[3] 王强[1] 韦春荣[1] 

机构地区:[1]广西师范大学计算机科学与信息工程学院,广西桂林541004 [2]上海交通大学航空航天学院,上海200240 [3]桂林电子科技大学材料科学与工程学院,广西桂林541004

出  处:《计算机工程与应用》2010年第15期146-149,共4页Computer Engineering and Applications

基  金:广西壮族自治区科技厅基金项目(桂科基0640067);广西师范大学青年骨干教师基金项目(师政科技[2009]7号)

摘  要:提出了一种先版面行分类后符号识别的印刷体数学公式提取策略。策略中两次应用K-L变换,分别完成版面行特征的降维和公式符号特征的提取,并采用免疫克隆选择算法优化支持向量机的训练参数,以构建出最优的版面行分类器和公式符号识别器。通过对300多份印刷体中文科技文档进行扫描识别测试,所得结果的公式提取率可达94%以上。A new approach for separating both isolated and embedded expressions in printed Chinese technical documents is presented,which includes two steps:line classification and symbol recognition.In the approach,K-L transform is applied to eliminate interrelation among line features and extract symbol features,and immune clone selection algorithm is used to optimize parameters of line classifier and symbol classifier based on support vector machine.The testing result to about 300 printed Chinese technical documents indicates that the expressions extraction accuracy is 94% above.

关 键 词:印刷体数学公式 支持向量机 K-L变换 免疫克隆选择 

分 类 号:TP391.41[自动化与计算机技术—计算机应用技术]

 

参考文献:

正在载入数据...

 

二级参考文献:

正在载入数据...

 

耦合文献:

正在载入数据...

 

引证文献:

正在载入数据...

 

二级引证文献:

正在载入数据...

 

同被引文献:

正在载入数据...

 

相关期刊文献:

正在载入数据...

相关的主题
相关的作者对象
相关的机构对象