检索规则说明:AND代表“并且”;OR代表“或者”;NOT代表“不包含”;(注意必须大写,运算符两边需空一格)
检 索 范 例 :范例一: (K=图书馆学 OR K=情报学) AND A=范并思 范例二:J=计算机应用与软件 AND (U=C++ OR U=Basic) NOT M=Visual
作 者:张真[1] 李宁[1] 田英爱[1] 耿思 许洁 ZHANG Zhen;LI Ning;TIAN Ying′ai;GENG Si;XU Jie(Computer School,Beijing Information Science & Technology University,Beijing 100101,China;China Electronics Standardization Institute,Beijing 100007,China)
机构地区:[1]北京信息科技大学计算机学院,北京100101 [2]中国电子技术标准研究院,北京100007
出 处:《北京信息科技大学学报(自然科学版)》2019年第2期29-34,共6页Journal of Beijing Information Science and Technology University
基 金:国家自然科学基金资助项目(61672105);国家高科技研究发展计划(863计划)(2015AA015403);国家重点研发计划项目(2018YFB1004100)
摘 要:对于传统方法在处理结构不规范的流式文档时的不足,提出一种左角分析和纠错规则相结合的新的流式文档结构重构方法。使用XML Schema构造文档逻辑构件的排版规则语法树;在排版规则语法树引导下,利用左角分析方法分析文档的逻辑构件,实现文档结构的重构;结合纠错规则对文档中的错误进行判断和改正,保证文档结构重构过程的顺利进行,得到最佳的流式文档结构。实验结果表明,所提方法在流式文档结构重构过程中的容错能力和识别准确率均优于其它算法。To improve fault-tolerance ability to reconstruct streaming document structure, a new method combining left-corner method and correction rules is proposed, where the XML Schema is applied to construct a syntax tree of typesetting rules of document components. Left-corner method is applied to analyze the logical components of the document supervised by the syntax tree. In the analysis process, the correction rules are used to correct the possible errors existed in document component and eventually the most likely document structure is gained. The results show that the algorithm can effectively improve the fault tolerance and recognition accuracy in the document structure reconstruction, which forms the foundation for document understanding and format checking.
关 键 词:流式文档 结构重构 容错处理 左角分析方法 纠错规则
分 类 号:TP302[自动化与计算机技术—计算机系统结构]
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在链接到云南高校图书馆文献保障联盟下载...
云南高校图书馆联盟文献共享服务平台 版权所有©
您的IP:216.73.216.145