基于凸包像素比特征的粘连汉字切分  被引量:3

Segmentation of Touching Chinese Character Based on Convex Hull Ratio Feature

在线阅读下载全文

作  者:魏湘辉[1] 马少平[2] 

机构地区:[1]中国科学院软件研究所,北京100080 [2]智能技术与系统国家重点实验室清华大学计算机科学与技术系,北京100084

出  处:《中文信息学报》2005年第1期91-97,共7页Journal of Chinese Information Processing

基  金:自然科学基金资助项目 (6 0 2 2 30 0 4 );国家 86 3高科技资助项目 (2 0 0 1AA114 0 82 )

摘  要:汉字切分正确与否直接影响了汉字识别系统的识别率 ,粘连汉字则是切分中的难点。本文将基于背景细化的切分方法应用于《四库全书》的两字符粘连汉字数据集 ,并针对其中切分路径选择问题 ,提出了一种新特征 -凸包像素比 ,反映了在不同切分路径下汉字结构变化的特性。实验结果表明该特征对多种分类器均能有效地提高切分路径选择的正确率。其中在使用基于高斯混合模型分类器时取得了 88 6 %正确率。Accuracy of segmenting Chinese characters, especially touching characters, is essential for performance of a Chinese characters recognition system. The paper applied a background-thinning algorithm to segment two-touching Chinesecharacters that come from the dataset of four vaults. A new feature called convex hull ratio was proposed for selection of the best segmentation path, as this feature exploits the property on the balance of Chinese characters' structure. The experimental results show that segmentation accuracy improved consistently using the new feature when three different classifiers were experimented. And gaussian mixture model achieves the accuracy of 88.6%.

关 键 词:人工智能 模式识别 粘连汉字 汉字切分 背景细化 凸包 

分 类 号:TP391[自动化与计算机技术—计算机应用技术]

 

参考文献:

正在载入数据...

 

二级参考文献:

正在载入数据...

 

耦合文献:

正在载入数据...

 

引证文献:

正在载入数据...

 

二级引证文献:

正在载入数据...

 

同被引文献:

正在载入数据...

 

相关期刊文献:

正在载入数据...

相关的主题
相关的作者对象
相关的机构对象