检索规则说明:AND代表“并且”;OR代表“或者”;NOT代表“不包含”;(注意必须大写,运算符两边需空一格)
检 索 范 例 :范例一: (K=图书馆学 OR K=情报学) AND A=范并思 范例二:J=计算机应用与软件 AND (U=C++ OR U=Basic) NOT M=Visual
作 者:张真 李宁[1,2] 田英爱[1,2] ZHANG Zhen;LI Ning;TIAN Ying’ai(Beijing Key Laboratory of Internet Culture and Digital Dissemination,Beijing Information Science and Technology University,Beijing 100101,China;Computer School,Beijing Information Science and Technology University,Beijing 100101,China)
机构地区:[1]北京信息科技大学网络文化与数字传播北京市重点实验室,北京100101 [2]北京信息科技大学计算机学院,北京100101
出 处:《计算机工程》2020年第1期60-66,73,共8页Computer Engineering
基 金:国家重点研发计划“私有云环境下服务化智能办公系统平台”(2018YFB1004100);国家自然科学基金“流式文档排版格式的智能化分析与优化方法”(61672105)
摘 要:流式文档结构识别对于排版格式自动优化和信息提取等具有重要作用。基于规则的结构识别方法泛化能力较差,而基于机器学习的方法未考虑文档单元之间的长距离依赖关系,识别准确率较低。针对该问题,提出一种基于双向长短期时间记忆(LSTM)网络的流式文档结构识别方法。从文档单元的格式、内容与语义3个方面筛选关键特征,并将文档结构识别看作序列标注问题,使用双向LSTM神经网络构建识别模型,以实现对18种逻辑标签的识别。实验结果表明,该方法能够对文档结构进行有效识别,其识别效果优于方正飞翔软件。Stream document structure recognition is important to automatic typesetting optimization and information extraction.The existing rule-based structure recognition method has a poor performance,and the machine learning-based method has a low recognition accuracy rate as it does not consider the long distance dependency between document units.To address the problem,this paper proposes a stream document structure recognition method based on bidirectional Long Short-Term Memory(LSTM)network.The method extracts key features in terms of the format,content and semantics of document units.Then it reduces document structure recognition to sequence labeling,and uses bidirectional LSTM neural network to construct a recognition model to implement recognition of 18 logical labels.Experimental results show that the method can effectively recognize the document structure,and has a better recognition performance than Founder FX software.
关 键 词:文档结构识别 流式文档 特征提取 序列标注 长短期时间记忆网络
分 类 号:TP18[自动化与计算机技术—控制理论与控制工程]
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在链接到云南高校图书馆文献保障联盟下载...
云南高校图书馆联盟文献共享服务平台 版权所有©
您的IP:18.188.54.133