检索规则说明:AND代表“并且”;OR代表“或者”;NOT代表“不包含”;(注意必须大写,运算符两边需空一格)
检 索 范 例 :范例一: (K=图书馆学 OR K=情报学) AND A=范并思 范例二:J=计算机应用与软件 AND (U=C++ OR U=Basic) NOT M=Visual
作 者:林杰 曾俊冬 初凤红 王树昂 LIN Jie;ZENG Jun-dong;CHU Feng-hong;WANG Shu-ang
机构地区:[1]上海电力大学电子与信息工程学院,上海201306 [2]中国核工业第五建设有限公司工程研究院,上海200540
出 处:《制造业自动化》2024年第4期53-58,71,共7页Manufacturing Automation
基 金:国家自然科学基金(62105196)。
摘 要:对核电工程图纸进行数字化管理,需要从大量既有图纸的标题栏中提取有用信息。针对核电工程图纸标题栏结构多变的特点,提出了基于LayoutXLM的标题栏文本信息自动提取方法。首先,利用光学字符识别技术获取标题栏图像的文本坐标和文本内容,将标题栏文本、文本布局信息和标题栏图像信息作为多模态预训练模型LayoutXLM的输入,提取出标题栏文本的语义实体特征。然后,将实体特征作为BiGRU-CRF网络和双仿射注意力机制的输入,分别构建语义实体识别模型和关系抽取模型。最后,使用自建标题栏数据集对语义实体识别模型和关系抽取模型进行验证。实验结果表明,语义实体识别的F1分数达到90%以上,关系抽取的F1分数达到78%,验证了该方法的有效性,为标题栏信息的自动提取提供了新的思路。
关 键 词:标题栏 LayoutXLM 语义实体识别 关系抽取
分 类 号:TP391[自动化与计算机技术—计算机应用技术]
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在链接到云南高校图书馆文献保障联盟下载...
云南高校图书馆联盟文献共享服务平台 版权所有©
您的IP:216.73.216.7