检索规则说明:AND代表“并且”;OR代表“或者”;NOT代表“不包含”;(注意必须大写,运算符两边需空一格)
检 索 范 例 :范例一: (K=图书馆学 OR K=情报学) AND A=范并思 范例二:J=计算机应用与软件 AND (U=C++ OR U=Basic) NOT M=Visual
作 者:张灿龙[1,2] 唐艳平[3] 王强[1] 韦春荣[1]
机构地区:[1]广西师范大学计算机科学与信息工程学院,广西桂林541004 [2]上海交通大学航空航天学院,上海200240 [3]桂林电子科技大学材料科学与工程学院,广西桂林541004
出 处:《计算机工程与应用》2010年第15期146-149,共4页Computer Engineering and Applications
基 金:广西壮族自治区科技厅基金项目(桂科基0640067);广西师范大学青年骨干教师基金项目(师政科技[2009]7号)
摘 要:提出了一种先版面行分类后符号识别的印刷体数学公式提取策略。策略中两次应用K-L变换,分别完成版面行特征的降维和公式符号特征的提取,并采用免疫克隆选择算法优化支持向量机的训练参数,以构建出最优的版面行分类器和公式符号识别器。通过对300多份印刷体中文科技文档进行扫描识别测试,所得结果的公式提取率可达94%以上。A new approach for separating both isolated and embedded expressions in printed Chinese technical documents is presented,which includes two steps:line classification and symbol recognition.In the approach,K-L transform is applied to eliminate interrelation among line features and extract symbol features,and immune clone selection algorithm is used to optimize parameters of line classifier and symbol classifier based on support vector machine.The testing result to about 300 printed Chinese technical documents indicates that the expressions extraction accuracy is 94% above.
关 键 词:印刷体数学公式 支持向量机 K-L变换 免疫克隆选择
分 类 号:TP391.41[自动化与计算机技术—计算机应用技术]
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在链接到云南高校图书馆文献保障联盟下载...
云南高校图书馆联盟文献共享服务平台 版权所有©
您的IP:216.73.216.222