数学公式识别系统:MatheReader  被引量:13

Mathematical Expression Recognition System:MatheReader

在线阅读下载全文

作  者:靳简明[1] 江红英[1] 王庆人[1] 

机构地区:[1]南开大学机器智能研究所,天津300071

出  处:《计算机学报》2006年第11期2018-2026,共9页Chinese Journal of Computers

基  金:国家自然科学基金天元基金(TY10026002-04-04-01)资助.

摘  要:数学公式广泛存在于各类文献之中,但是公式的识别远比文字段落的识别困难.文章介绍了一个数学公式图像识别系统MatheReader,重点阐述了其在公式定位及公式分析方面的技术方案.在公式定位方面,抽取版式特征,采用Parzen分类器区分独立公式和普通文字行,在普通文字行内检测二维结构定位内嵌公式.在公式分析方面,定义十一种基本公式类型,并用产生式规则限定每类公式的唯一分解方法,提出先识别公式类型,然后分解为子表达式的公式分析方法.和已有系统比较,MatheReader的功能更加强大,能够处理的公式更加丰富.Numerous mathematical expressions exist in all kinds of documents, but expression recognition is far more difficult than ordinary text recognition. A mathematical expression recognition system, MatheReader, is presented in this paper, and the detail schemes of expression extraction and expression analysis are described. For expression extraction, isolated expressions and normal text lines are distinguished by Parzen classifier based on layout features and embedded expressions are extracted by 2 D structures detection. For expression analysis, eleven basic expression types are defined, and the unique decomposition way for each type is defined by a set of production rules. The expression analysis scheme is proposed with recognizing expression type at first, and then decomposing the expression into sub-expressions according to the expression type. MatheReader is more powerful and can recognize more kinds of expressions than former systems.

关 键 词:公式定位 公式识别 公式分析 自动性能评估 文档图像处理 

分 类 号:TP391[自动化与计算机技术—计算机应用技术]

 

参考文献:

正在载入数据...

 

二级参考文献:

正在载入数据...

 

耦合文献:

正在载入数据...

 

引证文献:

正在载入数据...

 

二级引证文献:

正在载入数据...

 

同被引文献:

正在载入数据...

 

相关期刊文献:

正在载入数据...

相关的主题
相关的作者对象
相关的机构对象