检索规则说明:AND代表“并且”;OR代表“或者”;NOT代表“不包含”;(注意必须大写,运算符两边需空一格)
检 索 范 例 :范例一: (K=图书馆学 OR K=情报学) AND A=范并思 范例二:J=计算机应用与软件 AND (U=C++ OR U=Basic) NOT M=Visual
机构地区:[1]中国科学技术大学精密机械与精密仪器系,合肥230027 [2]镇江船艇学院船艇指挥系,镇江212003
出 处:《数据采集与处理》2008年第4期454-458,共5页Journal of Data Acquisition and Processing
摘 要:从Postscript格式文献中提取识别数学公式,是数学公式识别领域的一个新的研究方向。主要针对以Word和Latex为生成源的Postscript文档,提出了基于内容的数学公式提取方法。首先重载了Postscript语言中的一些相关命令,先后提取出Postscript文档中的字符及由线段连接得到的图形。然后根据字符名称、字体信息、位置信息对字符进行判断分析,提取出其中的数学符号;对提取出的图形,进行编码以识别出其对应的数学符号。最后,根据得到的数学符号之间的空间位置关系,借助启发式规则,将数学符号合并,提取出完整的数学公式。实验结果表明,该方法数学符号识别的正确率达到99.3%。A content-based approach for extracting mathematical expressions from Postscript document is presented. The current study objects are Postscript documents transformed from Microsoft Word or transformed from Latex. By redefining some standard routings rendering text or painting in prior, the character information, such as character name, font type, font name, and character bounding box are extracted from Postscript document, the line information is extracted as well. According to the character information, the mathematical characters are recognized, and then the connected lines are recognized as mathematical characters. Finally, heuristic rules are used to merge mathematics into expressions. Experiments prove that the method has high accuracy.
关 键 词:数学公式提取 POSTSCRIPT 启发式规则
分 类 号:TP391.1[自动化与计算机技术—计算机应用技术]
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在链接到云南高校图书馆文献保障联盟下载...
云南高校图书馆联盟文献共享服务平台 版权所有©
您的IP:216.73.216.31