检索规则说明:AND代表“并且”;OR代表“或者”;NOT代表“不包含”;(注意必须大写,运算符两边需空一格)
检 索 范 例 :范例一: (K=图书馆学 OR K=情报学) AND A=范并思 范例二:J=计算机应用与软件 AND (U=C++ OR U=Basic) NOT M=Visual
机构地区:[1]智能技术与系统国家重点实验室清华大学电子工程系,北京100084
出 处:《电子与信息学报》2008年第12期2916-2920,共5页Journal of Electronics & Information Technology
基 金:国家自然科学基金(60472002);西门子公司合作项目(20030829-24022SI202)资助课题
摘 要:该文提出了一种有效的中文手写地址字符串的切分与识别方法。首先,利用笔划提取与笔划合并将字符串图像进行过切分,得到"字根"图像序列;然后综合利用几何信息、识别信息和语义信息挑选最优的"字根"合并路径,得到最优的切分结果及对应的最优识别结果。其中,几何信息是根据当前字符串自身的特点统计得到,因此可适应不同书写风格的字符串。识别信息由单字分类器给出,包括10个候选识别结果及其相应的置信度;单字分类器采用MQDF分类器。语义信息用基于字的bi-gram模型进行描述,模型参数是从包含18万条地址数据的数据库中统计得到的。用3000个实际的手写地址样本做试验,单字识别正确率达到88.28%。An effective segmentation and recognition method of Chinese handwritten address strings is proposed. Firstly, over-segmentation is applied to character string images by extracting stroke and merging them to obtain "radical" sequences. Next, the optimal segmentation and recognition result is achieved by synthesizing geometric analysis, isolated character classifier and semantic information together. The geometric information is estimated on current character string to adapt to various writing styles of character strings. The isolated character classifier adopts MQDF classifier with ten candidate results and their confidence. The semantic information is described by a character-based bi-gram model, parameters of which are estimated from a database containing 180,000 addresses items. The algorithm is tested on 3,000 actual handwritten address samples and the single-character recognition rate is 88.28%.
分 类 号:TP391[自动化与计算机技术—计算机应用技术]
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在链接到云南高校图书馆文献保障联盟下载...
云南高校图书馆联盟文献共享服务平台 版权所有©
您的IP:216.73.216.222