一个基于混合语言模型的日文识别后处理系统

Statistical and Structural Combined Method-based Post-Processing Al gorithm for Japanese OCR

机构地区：[1]清华大学电子工程系,智能技术与系统国家重点实验室,北京100084

出　　处：《计算机工程与应用》2002年第14期68-72,共5页Computer Engineering and Applications

基　　金：国家863高技术研究发展计划(编号:2001AA114081);国家自然科学基金(编号:69972024)

摘　　要：在文字识别系统中,为了进一步提高文本识别率,后处理模块是很重要的环节。文章针对日文的语言特性,建立统计方法和规则相结合的混和语言模型,实现了一个日文识别后处理系统。该系统首先利用Viterbi算法得到统计模型输出的最优结果,通过与前端识别器输入的识别结果相比较,确定可疑字位置,再利用上下文词匹配方法和语法规则库的使用对可疑字进行检错和纠错处理。经实验验证,该后处理系统对识别日文印刷体文本错误率平均下降21.4%。The Post-Processing module plays an important role in an OCR system.This paper describes a Japanese post-processing system in TH-OCR multilingual OCR software,which combines statistical method and rules to construct a mixed Language Model,The system first uses Viterbi algorithm to get the optimal results of the statistical model,and then locate the suspicious characters by comparing the result of the classifier with it.Finally a contextual matching al-gorithm and grammar rules base are used to detect and correct the errors in the suspicious characters.Experiments show that the average error rates could be decreased by21.4%and proved this method is useful.

关键词：混合语言模型日文识别后处理系统知识库文字识别系统

分类号：TP391.43[自动化与计算机技术—计算机应用技术]

参考文献：

正在载入数据...

二级参考文献：

正在载入数据...

耦合文献：

正在载入数据...

引证文献：

正在载入数据...

二级引证文献：

正在载入数据...

同被引文献：

正在载入数据...

高级检索 检索式检索

时间限定

期刊范围

学科限定全选

高级检索 检索式检索

时间限定

期刊范围

学科限定全选

一个基于混合语言模型的日文识别后处理系统

我的收藏

参考文献：

二级参考文献：

耦合文献：

引证文献：

二级引证文献：

同被引文献：

相关期刊文献：

相关的主题

相关的作者对象

相关的机构对象

下载全文

高级检索检索式检索

时间限定

期刊范围

学科限定全选

高级检索 检索式检索

时间限定

期刊范围

学科限定全选

一个基于混合语言模型的日文识别后处理系统

我的收藏

参考文献：

二级参考文献：

耦合文献：

引证文献：

二级引证文献：

同被引文献：

相关期刊文献：

相关的主题

相关的作者对象

相关的机构对象

下载全文

用户登录

高级检索检索式检索