Postscript格式科技文献中数学表达式的提取方法  被引量:4

EXTRACTING MATHEMATICAL EXPRESSIONS FROM SCIENTIFIC AND TECHNICAL DOCUMENTS IN POSTSCRIPT FORMAT

在线阅读下载全文

作  者:张志伟[1] 孔凡让[1] 吴欣[2] 

机构地区:[1]中国科学技术大学精密机械与精密仪器系,安徽合肥230027 [2]南京理工大学机械工程学院,江苏南京210094

出  处:《计算机应用与软件》2008年第11期157-159,162,共4页Computer Applications and Software

摘  要:从Postscript格式的科技文献中提取识别数学表达式,是数学表达式识别领域的一个新的研究方向。主要针对以Word和Latex为生成源的PS文档,提出了基于内容的数学表达式提取方法。首先重载了PS语言中的一些相关命令,以提取PS文档中的字符与线段信息;之后根据字符名称、字体、位置等信息对字符进行分析,同时连接线段并加以识别,从而提取出数学符号;最后,根据符号问的空间位置关系和启发式规则,将数学符号归并,提取出最终的表达式。实验结果表明该方法正确率达到98.56%。A content-based approach to mathematical expressions extraction from Postscript documents is presented. The current study objects are Postscript documents generated by Microsoft Word or Latex. Firstly, some relevant orders in PS language are redefined to extract character and line information. Then, the name, font type and location of characters are analyzed. The connected lines are recognized, and the mathematical characters are extracted. Finally, heuristic rules are used to merge mathematics into expressions. The method proposed is proved to have high accuracy by experiments.

关 键 词:数学表达式提取 POSTSCRIPT 文本抽取 

分 类 号:TP391[自动化与计算机技术—计算机应用技术] TS803[自动化与计算机技术—计算机科学与技术]

 

参考文献:

正在载入数据...

 

二级参考文献:

正在载入数据...

 

耦合文献:

正在载入数据...

 

引证文献:

正在载入数据...

 

二级引证文献:

正在载入数据...

 

同被引文献:

正在载入数据...

 

相关期刊文献:

正在载入数据...

相关的主题
相关的作者对象
相关的机构对象