检索规则说明:AND代表“并且”;OR代表“或者”;NOT代表“不包含”;(注意必须大写,运算符两边需空一格)
检 索 范 例 :范例一: (K=图书馆学 OR K=情报学) AND A=范并思 范例二:J=计算机应用与软件 AND (U=C++ OR U=Basic) NOT M=Visual
作 者:张充[1] 苗秀芬[1] 司建辉[1] 史青宣[1] 田学东[1]
出 处:《计算机工程》2008年第15期211-213,共3页Computer Engineering
基 金:国家自然科学基金资助项目(60772073);河北省科学技术研究与发展计划基金资助项目(06213598)
摘 要:针对中文版面多横竖混排的特点,提出一种基于最小生成树聚类的版面分割方法。对原图像进行水平和垂直游程平滑,并对平滑后所得的连通域进行预分类处理,将文本进行横排、竖排分类。对预分类后的各类文本采用最小生成树聚类算法进行聚类处理。经实验,准确率达97%。实验表明,该方法对中文文档有良好的分割效果。Aiming at the feature that transverse documents and vertical documents blend mostly in Chinese document layout, a menthod based on minimal spanning tree clustering is presented. Apply run_length smoothing algorithm on the document in horizontal direction, and vertical direction. Then. a pre_classification step is applied to the connected components generated after classifying run_length smoothing to body text into horizontally aligned and vertically aligned. Minimal spanning tree clustering algorithm is applied to the body text that are generated after pre_classification. Via experiment, the accurate rate reaches 97%. As is shown from the experiment, the method has a good effect on segmentation of Chinese documents.
分 类 号:TP391.1[自动化与计算机技术—计算机应用技术]
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在链接到云南高校图书馆文献保障联盟下载...
云南高校图书馆联盟文献共享服务平台 版权所有©
您的IP:18.116.81.41