基于自适应重组策略的中文文档版面分析  

在线阅读下载全文

作  者:FuChang Shih-YuChu Chi-YenChen 屠晓[2] 

机构地区:[1]不详 [2]华东师范大学

出  处:《图象识别与自动化》2005年第1期1-11,共11页

摘  要:在文档版面分析中,采用一些数值化参数定义文本行和文本区域(如字符与字符的间隔和行与行的间隔),但只有在形成文本行和文本区域后才能确定这些参数的值。这类似先有鸡还是先有鸡蛋的问题,可以通过自适应重组策略解决。这个策略大致分为三步:第一步,根据最初的参数值将一些基本图像成分分组,组成预备的文本行和文本区域;第二步,根据已分好的小组推敲对参数值的评估;第三步,根据重新确定的参数值拆分或合并已存在的分组,形成新的分组。本文运用上述策略分析时,同时存在水平文本行和垂直文本行的中文文档。使用这种方法可以成功地获得结果。对一千多篇具有不同文档版面结构的文档图像进行测试,结果显示,这种方法识别文本行和文本区域的准确率在98%以上。

关 键 词:版面分析 中文文档 组策略 自适应 参数值 参数定义 策略分析 文档图像 文本 数值化 分组 面结构 准确率 间隔 字符 

分 类 号:TP391[自动化与计算机技术—计算机应用技术] TP316.7[自动化与计算机技术—计算机科学与技术]

 

参考文献:

正在载入数据...

 

二级参考文献:

正在载入数据...

 

耦合文献:

正在载入数据...

 

引证文献:

正在载入数据...

 

二级引证文献:

正在载入数据...

 

同被引文献:

正在载入数据...

 

相关期刊文献:

正在载入数据...

相关的主题
相关的作者对象
相关的机构对象