连通区的页面分割与分类方法  被引量:3

Approach to Page Segmentation and Classification

在线阅读下载全文

作  者:王姝华[1] 曹阳[2] 李佐[1] 蔡士杰[1] 

机构地区:[1]南京大学计算机软件新技术国家重点实验室,南京210093 [2]香港理工大学建筑与房地产系

出  处:《计算机辅助设计与图形学学报》2002年第1期17-20,25,共5页Journal of Computer-Aided Design & Computer Graphics

摘  要:页面分割与分类是文档处理的关键步骤 ,但目前多数方法对页面的块和倾斜进行了限制 .文中提出一种新的基于连通区的页面分割与分类方法 .首先采用快速算法抽取页面内的连通区 ,然后利用改进的 RL SA算法分割页面 ,并根据连通区的分布情况以及块的特征对块进行分类 .该方法将页面分割与分类紧密结合 ,充分考虑到块的局部特征 ,保证块分类的正确性 。Page segmentation and classification is the key procedure in document processing. But most current algorithms can only process pages with limited shape of blocks and no skew angle. In this paper, a new approach to page segmentation and classification based on connected components is introduced. First, the connected components in page image are extracted quickly. Then a RLSA algorithm based on the connected components is adopted for page segmentation. Furthermore, distribution of the connected components in one block and global features of the block are analyzed to classify different blocks. This approach not only combines the page segmentation and classification together, which improves the running efficiency, but also takes into consideration the local features of block, which assures the correctness of block classification.

关 键 词:文档处理 页面分割 页面分类 PLSA 图像处理 计算机 

分 类 号:TP391.41[自动化与计算机技术—计算机应用技术]

 

参考文献:

正在载入数据...

 

二级参考文献:

正在载入数据...

 

耦合文献:

正在载入数据...

 

引证文献:

正在载入数据...

 

二级引证文献:

正在载入数据...

 

同被引文献:

正在载入数据...

 

相关期刊文献:

正在载入数据...

相关的主题
相关的作者对象
相关的机构对象