检索规则说明:AND代表“并且”;OR代表“或者”;NOT代表“不包含”;(注意必须大写,运算符两边需空一格)
检 索 范 例 :范例一: (K=图书馆学 OR K=情报学) AND A=范并思 范例二:J=计算机应用与软件 AND (U=C++ OR U=Basic) NOT M=Visual
作 者:谢旭东[1] 丁晓青[1] 彭良瑞[1] 刘长松[1]
机构地区:[1]清华大学电子工程系,智能技术与系统国家重点实验室,北京100084
出 处:《计算机工程与应用》2002年第14期68-72,共5页Computer Engineering and Applications
基 金:国家863高技术研究发展计划(编号:2001AA114081);国家自然科学基金(编号:69972024)
摘 要:在文字识别系统中,为了进一步提高文本识别率,后处理模块是很重要的环节。文章针对日文的语言特性,建立统计方法和规则相结合的混和语言模型,实现了一个日文识别后处理系统。该系统首先利用Viterbi算法得到统计模型输出的最优结果,通过与前端识别器输入的识别结果相比较,确定可疑字位置,再利用上下文词匹配方法和语法规则库的使用对可疑字进行检错和纠错处理。经实验验证,该后处理系统对识别日文印刷体文本错误率平均下降21.4%。The Post-Processing module plays an important role in an OCR system.This paper describes a Japanese post-processing system in TH-OCR multilingual OCR software,which combines statistical method and rules to construct a mixed Language Model,The system first uses Viterbi algorithm to get the optimal results of the statistical model,and then locate the suspicious characters by comparing the result of the classifier with it.Finally a contextual matching al-gorithm and grammar rules base are used to detect and correct the errors in the suspicious characters.Experiments show that the average error rates could be decreased by21.4%and proved this method is useful.
关 键 词:混合语言模型 日文识别后处理系统 知识库 文字识别系统
分 类 号:TP391.43[自动化与计算机技术—计算机应用技术]
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在链接到云南高校图书馆文献保障联盟下载...
云南高校图书馆联盟文献共享服务平台 版权所有©
您的IP:216.73.216.26