从Postscript格式文献中提取数学公式的方法  

Extracting Mathematical Expressions from Postscript Documents

在线阅读下载全文

作  者:张志伟[1] 孔凡让[1] 柴华[2] 

机构地区:[1]中国科学技术大学精密机械与精密仪器系,合肥230027 [2]镇江船艇学院船艇指挥系,镇江212003

出  处:《数据采集与处理》2008年第4期454-458,共5页Journal of Data Acquisition and Processing

摘  要:从Postscript格式文献中提取识别数学公式,是数学公式识别领域的一个新的研究方向。主要针对以Word和Latex为生成源的Postscript文档,提出了基于内容的数学公式提取方法。首先重载了Postscript语言中的一些相关命令,先后提取出Postscript文档中的字符及由线段连接得到的图形。然后根据字符名称、字体信息、位置信息对字符进行判断分析,提取出其中的数学符号;对提取出的图形,进行编码以识别出其对应的数学符号。最后,根据得到的数学符号之间的空间位置关系,借助启发式规则,将数学符号合并,提取出完整的数学公式。实验结果表明,该方法数学符号识别的正确率达到99.3%。A content-based approach for extracting mathematical expressions from Postscript document is presented. The current study objects are Postscript documents transformed from Microsoft Word or transformed from Latex. By redefining some standard routings rendering text or painting in prior, the character information, such as character name, font type, font name, and character bounding box are extracted from Postscript document, the line information is extracted as well. According to the character information, the mathematical characters are recognized, and then the connected lines are recognized as mathematical characters. Finally, heuristic rules are used to merge mathematics into expressions. Experiments prove that the method has high accuracy.

关 键 词:数学公式提取 POSTSCRIPT 启发式规则 

分 类 号:TP391.1[自动化与计算机技术—计算机应用技术]

 

参考文献:

正在载入数据...

 

二级参考文献:

正在载入数据...

 

耦合文献:

正在载入数据...

 

引证文献:

正在载入数据...

 

二级引证文献:

正在载入数据...

 

同被引文献:

正在载入数据...

 

相关期刊文献:

正在载入数据...

相关的主题
相关的作者对象
相关的机构对象