检索规则说明:AND代表“并且”;OR代表“或者”;NOT代表“不包含”;(注意必须大写,运算符两边需空一格)
检 索 范 例 :范例一: (K=图书馆学 OR K=情报学) AND A=范并思 范例二:J=计算机应用与软件 AND (U=C++ OR U=Basic) NOT M=Visual
机构地区:[1]南京大学计算机软件新技术国家重点实验室,南京210093 [2]香港理工大学建筑与房地产系
出 处:《计算机辅助设计与图形学学报》2002年第1期17-20,25,共5页Journal of Computer-Aided Design & Computer Graphics
摘 要:页面分割与分类是文档处理的关键步骤 ,但目前多数方法对页面的块和倾斜进行了限制 .文中提出一种新的基于连通区的页面分割与分类方法 .首先采用快速算法抽取页面内的连通区 ,然后利用改进的 RL SA算法分割页面 ,并根据连通区的分布情况以及块的特征对块进行分类 .该方法将页面分割与分类紧密结合 ,充分考虑到块的局部特征 ,保证块分类的正确性 。Page segmentation and classification is the key procedure in document processing. But most current algorithms can only process pages with limited shape of blocks and no skew angle. In this paper, a new approach to page segmentation and classification based on connected components is introduced. First, the connected components in page image are extracted quickly. Then a RLSA algorithm based on the connected components is adopted for page segmentation. Furthermore, distribution of the connected components in one block and global features of the block are analyzed to classify different blocks. This approach not only combines the page segmentation and classification together, which improves the running efficiency, but also takes into consideration the local features of block, which assures the correctness of block classification.
关 键 词:文档处理 页面分割 页面分类 PLSA 图像处理 计算机
分 类 号:TP391.41[自动化与计算机技术—计算机应用技术]
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在链接到云南高校图书馆文献保障联盟下载...
云南高校图书馆联盟文献共享服务平台 版权所有©
您的IP:216.73.216.233