中文科技文档中的数学表达式定位  被引量:4

Extraction of Mathematical Expressions in Printed Chinese Technical Documents

在线阅读下载全文

作  者:张志伟[1] 孔凡让[1] 刘维来[1] 龙潜[1] 刘永斌[1] 

机构地区:[1]中国科学技术大学精密机械与精密仪器系,安徽合肥230027

出  处:《中文信息学报》2007年第4期86-91,共6页Journal of Chinese Information Processing

摘  要:数学表达式定位是印刷体数学表达式识别的前提。针对中文科技文档,分别对独立表达式和内嵌表达式的定位问题提出了新的方法。采用自适应神经模糊推理系统(ANFIS)对行特征进行分类,提取出独立表达式;采用模糊聚类和动态规划方法,从文档中依次提取出汉字、中文标点和英文字符,利用启发式规则合并剩余的数学符号而提取出内嵌表达式。实验表明,提出的表达式定位方法有很高的正确率。Extraction of mathematical expressions is the first step of mathematical expressions recognition. A new approach for separating both isolated and embedded expressions in printed Chinese technical documents is presented. After the features of text lines are extracted, ANFIS is used to classify the text lines into two classes: lines of text and lines of isolated expressions. For embedded expressions, Fuzzy clustering and dynamic programming algorithm are applied to extract Chinese Characters, Chinese punctuations and English letters in sequence. At last, heuristic rules are used to merge mathematics into expressions. The methods proposed are proved to have high accuracy by experiments.

关 键 词:人工智能 模式识别 数学表达式定位 自适应神经模糊推理系统 模糊聚类 中英文分离 

分 类 号:TP391.41[自动化与计算机技术—计算机应用技术]

 

参考文献:

正在载入数据...

 

二级参考文献:

正在载入数据...

 

耦合文献:

正在载入数据...

 

引证文献:

正在载入数据...

 

二级引证文献:

正在载入数据...

 

同被引文献:

正在载入数据...

 

相关期刊文献:

正在载入数据...

相关的主题
相关的作者对象
相关的机构对象