检索规则说明:AND代表“并且”;OR代表“或者”;NOT代表“不包含”;(注意必须大写,运算符两边需空一格)
检 索 范 例 :范例一: (K=图书馆学 OR K=情报学) AND A=范并思 范例二:J=计算机应用与软件 AND (U=C++ OR U=Basic) NOT M=Visual
机构地区:[1]中国科学技术大学精密机械与精密仪器系,安徽合肥230027 [2]南京理工大学机械工程学院,江苏南京210094
出 处:《计算机应用与软件》2008年第11期157-159,162,共4页Computer Applications and Software
摘 要:从Postscript格式的科技文献中提取识别数学表达式,是数学表达式识别领域的一个新的研究方向。主要针对以Word和Latex为生成源的PS文档,提出了基于内容的数学表达式提取方法。首先重载了PS语言中的一些相关命令,以提取PS文档中的字符与线段信息;之后根据字符名称、字体、位置等信息对字符进行分析,同时连接线段并加以识别,从而提取出数学符号;最后,根据符号问的空间位置关系和启发式规则,将数学符号归并,提取出最终的表达式。实验结果表明该方法正确率达到98.56%。A content-based approach to mathematical expressions extraction from Postscript documents is presented. The current study objects are Postscript documents generated by Microsoft Word or Latex. Firstly, some relevant orders in PS language are redefined to extract character and line information. Then, the name, font type and location of characters are analyzed. The connected lines are recognized, and the mathematical characters are extracted. Finally, heuristic rules are used to merge mathematics into expressions. The method proposed is proved to have high accuracy by experiments.
关 键 词:数学表达式提取 POSTSCRIPT 文本抽取
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在链接到云南高校图书馆文献保障联盟下载...
云南高校图书馆联盟文献共享服务平台 版权所有©
您的IP:216.73.216.31