检索规则说明:AND代表“并且”;OR代表“或者”;NOT代表“不包含”;(注意必须大写,运算符两边需空一格)
检 索 范 例 :范例一: (K=图书馆学 OR K=情报学) AND A=范并思 范例二:J=计算机应用与软件 AND (U=C++ OR U=Basic) NOT M=Visual
出 处:《计算机学报》2006年第11期2018-2026,共9页Chinese Journal of Computers
基 金:国家自然科学基金天元基金(TY10026002-04-04-01)资助.
摘 要:数学公式广泛存在于各类文献之中,但是公式的识别远比文字段落的识别困难.文章介绍了一个数学公式图像识别系统MatheReader,重点阐述了其在公式定位及公式分析方面的技术方案.在公式定位方面,抽取版式特征,采用Parzen分类器区分独立公式和普通文字行,在普通文字行内检测二维结构定位内嵌公式.在公式分析方面,定义十一种基本公式类型,并用产生式规则限定每类公式的唯一分解方法,提出先识别公式类型,然后分解为子表达式的公式分析方法.和已有系统比较,MatheReader的功能更加强大,能够处理的公式更加丰富.Numerous mathematical expressions exist in all kinds of documents, but expression recognition is far more difficult than ordinary text recognition. A mathematical expression recognition system, MatheReader, is presented in this paper, and the detail schemes of expression extraction and expression analysis are described. For expression extraction, isolated expressions and normal text lines are distinguished by Parzen classifier based on layout features and embedded expressions are extracted by 2 D structures detection. For expression analysis, eleven basic expression types are defined, and the unique decomposition way for each type is defined by a set of production rules. The expression analysis scheme is proposed with recognizing expression type at first, and then decomposing the expression into sub-expressions according to the expression type. MatheReader is more powerful and can recognize more kinds of expressions than former systems.
关 键 词:公式定位 公式识别 公式分析 自动性能评估 文档图像处理
分 类 号:TP391[自动化与计算机技术—计算机应用技术]
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在链接到云南高校图书馆文献保障联盟下载...
云南高校图书馆联盟文献共享服务平台 版权所有©
您的IP:216.73.216.49