版式电子文档表格自动检测与性能评估  被引量:3

Automatic Table Boundary Detection and Performance Evaluation in Fixed-Layout Documents

在线阅读下载全文

作  者:房婧[1] 高良才[1] 仇睿恒[1,2,3] 汤帜[1] 

机构地区:[1]北京大学计算机科学技术研究所,北京100080 [2]数字出版技术国家重点实验室,北京100080 [3]中关村科技园区海淀园企业博士后科研工作站北大方正集团公司分站,北京100080

出  处:《北京大学学报(自然科学版)》2013年第1期45-53,共9页Acta Scientiarum Naturalium Universitatis Pekinensis

基  金:国家重点基础研究发展计划(2012CB724108)资助

摘  要:针对版式电子文档的特点,提出一种表格线分割符和表格文本的布局特征相结合的表格定位方法,并且对中英文档均有效。此外,针对缺少表格定位自动评估体系,构建了一个初具规模的公开数据集,由中英文版式页面等比例组成,对其标注基准结果,并针对移动阅读应用场景提出一套评估准则。通过与现有两个开源表格定位项目的比较,验证了新提出的表格定位方法的有效性和评估体系的实用性,特别是对中文数据集获得了较好的结果。The authors propose a novel and effective table boundary detection method via visual separators and geometric content layout information, which is effective for both Chinese and English documents. Additionally, due to the lack of automatic evaluation system for table boundaries detection, the authors also provide a publicly available large-scale dataset, composed of same amount of Chinese and English pages make ground-truth and propose mobile reading oriented performance measurements. Evaluation and comparison with two other open source table boundary detection projects demonstrates effectiveness of the proposed method and practicality of the evaluation suit.

关 键 词:版式文档 表格定位 表格检测 自动性能评估 

分 类 号:TP391.1[自动化与计算机技术—计算机应用技术]

 

参考文献:

正在载入数据...

 

二级参考文献:

正在载入数据...

 

耦合文献:

正在载入数据...

 

引证文献:

正在载入数据...

 

二级引证文献:

正在载入数据...

 

同被引文献:

正在载入数据...

 

相关期刊文献:

正在载入数据...

相关的主题
相关的作者对象
相关的机构对象