检索规则说明:AND代表“并且”;OR代表“或者”;NOT代表“不包含”;(注意必须大写,运算符两边需空一格)
检 索 范 例 :范例一: (K=图书馆学 OR K=情报学) AND A=范并思 范例二:J=计算机应用与软件 AND (U=C++ OR U=Basic) NOT M=Visual
机构地区:[1]中国科学院软件研究所,北京100080 [2]智能技术与系统国家重点实验室清华大学计算机科学与技术系,北京100084
出 处:《中文信息学报》2005年第1期91-97,共7页Journal of Chinese Information Processing
基 金:自然科学基金资助项目 (6 0 2 2 30 0 4 );国家 86 3高科技资助项目 (2 0 0 1AA114 0 82 )
摘 要:汉字切分正确与否直接影响了汉字识别系统的识别率 ,粘连汉字则是切分中的难点。本文将基于背景细化的切分方法应用于《四库全书》的两字符粘连汉字数据集 ,并针对其中切分路径选择问题 ,提出了一种新特征 -凸包像素比 ,反映了在不同切分路径下汉字结构变化的特性。实验结果表明该特征对多种分类器均能有效地提高切分路径选择的正确率。其中在使用基于高斯混合模型分类器时取得了 88 6 %正确率。Accuracy of segmenting Chinese characters, especially touching characters, is essential for performance of a Chinese characters recognition system. The paper applied a background-thinning algorithm to segment two-touching Chinesecharacters that come from the dataset of four vaults. A new feature called convex hull ratio was proposed for selection of the best segmentation path, as this feature exploits the property on the balance of Chinese characters' structure. The experimental results show that segmentation accuracy improved consistently using the new feature when three different classifiers were experimented. And gaussian mixture model achieves the accuracy of 88.6%.
关 键 词:人工智能 模式识别 粘连汉字 汉字切分 背景细化 凸包
分 类 号:TP391[自动化与计算机技术—计算机应用技术]
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在链接到云南高校图书馆文献保障联盟下载...
云南高校图书馆联盟文献共享服务平台 版权所有©
您的IP:216.73.216.38