检索规则说明:AND代表“并且”;OR代表“或者”;NOT代表“不包含”;(注意必须大写,运算符两边需空一格)
检 索 范 例 :范例一: (K=图书馆学 OR K=情报学) AND A=范并思 范例二:J=计算机应用与软件 AND (U=C++ OR U=Basic) NOT M=Visual
作 者:房婧[1] 高良才[1] 仇睿恒[1,2,3] 汤帜[1]
机构地区:[1]北京大学计算机科学技术研究所,北京100080 [2]数字出版技术国家重点实验室,北京100080 [3]中关村科技园区海淀园企业博士后科研工作站北大方正集团公司分站,北京100080
出 处:《北京大学学报(自然科学版)》2013年第1期45-53,共9页Acta Scientiarum Naturalium Universitatis Pekinensis
基 金:国家重点基础研究发展计划(2012CB724108)资助
摘 要:针对版式电子文档的特点,提出一种表格线分割符和表格文本的布局特征相结合的表格定位方法,并且对中英文档均有效。此外,针对缺少表格定位自动评估体系,构建了一个初具规模的公开数据集,由中英文版式页面等比例组成,对其标注基准结果,并针对移动阅读应用场景提出一套评估准则。通过与现有两个开源表格定位项目的比较,验证了新提出的表格定位方法的有效性和评估体系的实用性,特别是对中文数据集获得了较好的结果。The authors propose a novel and effective table boundary detection method via visual separators and geometric content layout information, which is effective for both Chinese and English documents. Additionally, due to the lack of automatic evaluation system for table boundaries detection, the authors also provide a publicly available large-scale dataset, composed of same amount of Chinese and English pages make ground-truth and propose mobile reading oriented performance measurements. Evaluation and comparison with two other open source table boundary detection projects demonstrates effectiveness of the proposed method and practicality of the evaluation suit.
分 类 号:TP391.1[自动化与计算机技术—计算机应用技术]
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在链接到云南高校图书馆文献保障联盟下载...
云南高校图书馆联盟文献共享服务平台 版权所有©
您的IP:216.73.216.49