基于最小生成树聚类的中文版面分割法  被引量:2

Chinese Document Layout Segmentation Method Based on Minimal Spanning Tree Clustering

在线阅读下载全文

作  者:张充[1] 苗秀芬[1] 司建辉[1] 史青宣[1] 田学东[1] 

机构地区:[1]河北大学数学与计算机学院,保定071002

出  处:《计算机工程》2008年第15期211-213,共3页Computer Engineering

基  金:国家自然科学基金资助项目(60772073);河北省科学技术研究与发展计划基金资助项目(06213598)

摘  要:针对中文版面多横竖混排的特点,提出一种基于最小生成树聚类的版面分割方法。对原图像进行水平和垂直游程平滑,并对平滑后所得的连通域进行预分类处理,将文本进行横排、竖排分类。对预分类后的各类文本采用最小生成树聚类算法进行聚类处理。经实验,准确率达97%。实验表明,该方法对中文文档有良好的分割效果。Aiming at the feature that transverse documents and vertical documents blend mostly in Chinese document layout, a menthod based on minimal spanning tree clustering is presented. Apply run_length smoothing algorithm on the document in horizontal direction, and vertical direction. Then. a pre_classification step is applied to the connected components generated after classifying run_length smoothing to body text into horizontally aligned and vertically aligned. Minimal spanning tree clustering algorithm is applied to the body text that are generated after pre_classification. Via experiment, the accurate rate reaches 97%. As is shown from the experiment, the method has a good effect on segmentation of Chinese documents.

关 键 词:版面分割 游程平滑 最小生成树聚类 

分 类 号:TP391.1[自动化与计算机技术—计算机应用技术]

 

参考文献:

正在载入数据...

 

二级参考文献:

正在载入数据...

 

耦合文献:

正在载入数据...

 

引证文献:

正在载入数据...

 

二级引证文献:

正在载入数据...

 

同被引文献:

正在载入数据...

 

相关期刊文献:

正在载入数据...

相关的主题
相关的作者对象
相关的机构对象