一个基于混合语言模型的日文识别后处理系统  

Statistical and Structural Combined Method-based Post-Processing Al gorithm for Japanese OCR

在线阅读下载全文

作  者:谢旭东[1] 丁晓青[1] 彭良瑞[1] 刘长松[1] 

机构地区:[1]清华大学电子工程系,智能技术与系统国家重点实验室,北京100084

出  处:《计算机工程与应用》2002年第14期68-72,共5页Computer Engineering and Applications

基  金:国家863高技术研究发展计划(编号:2001AA114081);国家自然科学基金(编号:69972024)

摘  要:在文字识别系统中,为了进一步提高文本识别率,后处理模块是很重要的环节。文章针对日文的语言特性,建立统计方法和规则相结合的混和语言模型,实现了一个日文识别后处理系统。该系统首先利用Viterbi算法得到统计模型输出的最优结果,通过与前端识别器输入的识别结果相比较,确定可疑字位置,再利用上下文词匹配方法和语法规则库的使用对可疑字进行检错和纠错处理。经实验验证,该后处理系统对识别日文印刷体文本错误率平均下降21.4%。The Post-Processing module plays an important role in an OCR system.This paper describes a Japanese post-processing system in TH-OCR multilingual OCR software,which combines statistical method and rules to construct a mixed Language Model,The system first uses Viterbi algorithm to get the optimal results of the statistical model,and then locate the suspicious characters by comparing the result of the classifier with it.Finally a contextual matching al-gorithm and grammar rules base are used to detect and correct the errors in the suspicious characters.Experiments show that the average error rates could be decreased by21.4%and proved this method is useful.

关 键 词:混合语言模型 日文识别后处理系统 知识库 文字识别系统 

分 类 号:TP391.43[自动化与计算机技术—计算机应用技术]

 

参考文献:

正在载入数据...

 

二级参考文献:

正在载入数据...

 

耦合文献:

正在载入数据...

 

引证文献:

正在载入数据...

 

二级引证文献:

正在载入数据...

 

同被引文献:

正在载入数据...

 

相关期刊文献:

正在载入数据...

相关的主题
相关的作者对象
相关的机构对象