大型中文古籍《四库全书》自动版面分析系统  被引量:7

Automatic Document Layout Analysis System for the Large scale Chinese Antient Books“Imperial Collection of Four”

在线阅读下载全文

作  者:姜哲[1] 马少平[1] 夏莹[1] 

机构地区:[1]智能技术与系统国家重点实验室清华大学计算机科学与技术系,北京100084

出  处:《中文信息学报》2000年第2期14-20,共7页Journal of Chinese Information Processing

基  金:国家自然科学基金;"86 3"高技术项目资助

摘  要:《四库全书》是中文古籍的经典和代表。对《四库全书》的整理 ,可以为其它古籍的整理积累和提供经验。本系统属于《四库全书》电子版专用OCR系统的预处理配套系统 ,主要功能是对《四库全书》的页面图象进行分析和理解 ,分离图象中的汉字用于识别和统计 ,获取版面结构以便于重编和出版。《四库全书》属于手写木版印刷 ,版面有一定规范 ,但形式多样、结构复杂、图象质量和字体大小有差异 ,版面分析的难度很大。本系统采用了自顶向下方法与自底向上方法相结合、自动处理与人工修正相结合的设计思想。从实用情况看 ,本系统已经能够自动采用相应算法 ,处理多种规范和准规范的版面 ,并提供方便的人工辅助纠错功能 ,保障了预处理工作的顺利进行 ,也为识别系统的学习建库和识别创造了良好的条件。Imperial Collection of Four”is a sutra and representation of Chinese antient books.So the digitalization works of this Collection will accumulate and provide experiences for other antient books.This system is the pre processing system of costumized OCR system for the digitized publication of “Imperial Collection of Four”.The main function of this system is to analysis and undterstand the page images scanned from the Collection, then to seperate the Chinese characters in them for the use of recognition and statistics,meanwhile extracting the layout structures for re building and publishing.The design of the system adoptted top down approaches with bottom up ones,and also adoptted automatic processings with manual correcting.In application, this system has been used to process a large numbers of page images,and has shown efficient and satisfiable performance.It provides a stable ground for the pre processing works,and builds up a good situation for learning and recognition procedures of the recogintion system.

关 键 词:四库全书 版面分析 汉字识别 OCR技术 

分 类 号:H123[语言文字—汉语] TP391[自动化与计算机技术—计算机应用技术]

 

参考文献:

正在载入数据...

 

二级参考文献:

正在载入数据...

 

耦合文献:

正在载入数据...

 

引证文献:

正在载入数据...

 

二级引证文献:

正在载入数据...

 

同被引文献:

正在载入数据...

 

相关期刊文献:

正在载入数据...

相关的主题
相关的作者对象
相关的机构对象