检索规则说明:AND代表“并且”;OR代表“或者”;NOT代表“不包含”;(注意必须大写,运算符两边需空一格)
检 索 范 例 :范例一: (K=图书馆学 OR K=情报学) AND A=范并思 范例二:J=计算机应用与软件 AND (U=C++ OR U=Basic) NOT M=Visual
作 者:FuChang Shih-YuChu Chi-YenChen 屠晓[2]
出 处:《图象识别与自动化》2005年第1期1-11,共11页
摘 要:在文档版面分析中,采用一些数值化参数定义文本行和文本区域(如字符与字符的间隔和行与行的间隔),但只有在形成文本行和文本区域后才能确定这些参数的值。这类似先有鸡还是先有鸡蛋的问题,可以通过自适应重组策略解决。这个策略大致分为三步:第一步,根据最初的参数值将一些基本图像成分分组,组成预备的文本行和文本区域;第二步,根据已分好的小组推敲对参数值的评估;第三步,根据重新确定的参数值拆分或合并已存在的分组,形成新的分组。本文运用上述策略分析时,同时存在水平文本行和垂直文本行的中文文档。使用这种方法可以成功地获得结果。对一千多篇具有不同文档版面结构的文档图像进行测试,结果显示,这种方法识别文本行和文本区域的准确率在98%以上。
关 键 词:版面分析 中文文档 组策略 自适应 参数值 参数定义 策略分析 文档图像 文本 数值化 分组 面结构 准确率 间隔 字符
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在链接到云南高校图书馆文献保障联盟下载...
云南高校图书馆联盟文献共享服务平台 版权所有©
您的IP:216.73.216.222