英文科技文档识别中数学公式定位新方法  被引量:1

A novel localization method for mathematical formula in English scientific document

在线阅读下载全文

作  者:李峰[1] 吴微[1] 

机构地区:[1]大连理工大学应用数学系,辽宁大连116024

出  处:《大连理工大学学报》2009年第1期139-143,共5页Journal of Dalian University of Technology

基  金:国家自然科学基金资助项目(10471017,10871220)

摘  要:提出了一种自底向上和自顶向下相结合的定位英文科技文档图像中数学表达式的新方法.首先,利用整幅图像的统计数据计算出用于分类的基准参数,然后利用局部极大成分的水平投影数据进行初步行分割,再利用每行的竖直投影数据将每行的符号分成数个子区域.对每一个子区域依据其性质利用基准参数进行分类,通过对特定类别子区域的适当合并,最终得到文档图像中公式的位置.新方法可以用于处理图文混排的文档图像,能够降低文档中的图片、表格等元素对于公式定位结果的影响.A novel bottom-up and top-down mixed method for the localization of mathematics formulas in English scientific document image is proposed. Firstly, a benchmark parameter is calculated using the statistic data of the whole document image. Secondly, the document image is divided into lines with horizontal project data of local-maximum components in the image and each line is divided into some sub-regions in terms of the vertical projection data. These sub-regions are classified in terms of the benchmark parameter. Finally, the locations of formulas in the document image are obtained by suitably merging certain specific regions. The novel method can be used for picture-text mixed documents and can reduce the effect of the pictures and forms in the document image on mathematical expression localization.

关 键 词:英文科技文档 图文混排 数学公式 定位 

分 类 号:TP391.43[自动化与计算机技术—计算机应用技术]

 

参考文献:

正在载入数据...

 

二级参考文献:

正在载入数据...

 

耦合文献:

正在载入数据...

 

引证文献:

正在载入数据...

 

二级引证文献:

正在载入数据...

 

同被引文献:

正在载入数据...

 

相关期刊文献:

正在载入数据...

相关的主题
相关的作者对象
相关的机构对象