基于LayoutXLM的核电工程图纸标题栏信息自动提取方法研究  

Research on automatic extraction method of title block information of nuclear power engineering drawings based on layoutXLM

在线阅读下载全文

作  者:林杰 曾俊冬 初凤红 王树昂 LIN Jie;ZENG Jun-dong;CHU Feng-hong;WANG Shu-ang

机构地区:[1]上海电力大学电子与信息工程学院,上海201306 [2]中国核工业第五建设有限公司工程研究院,上海200540

出  处:《制造业自动化》2024年第4期53-58,71,共7页Manufacturing Automation

基  金:国家自然科学基金(62105196)。

摘  要:对核电工程图纸进行数字化管理,需要从大量既有图纸的标题栏中提取有用信息。针对核电工程图纸标题栏结构多变的特点,提出了基于LayoutXLM的标题栏文本信息自动提取方法。首先,利用光学字符识别技术获取标题栏图像的文本坐标和文本内容,将标题栏文本、文本布局信息和标题栏图像信息作为多模态预训练模型LayoutXLM的输入,提取出标题栏文本的语义实体特征。然后,将实体特征作为BiGRU-CRF网络和双仿射注意力机制的输入,分别构建语义实体识别模型和关系抽取模型。最后,使用自建标题栏数据集对语义实体识别模型和关系抽取模型进行验证。实验结果表明,语义实体识别的F1分数达到90%以上,关系抽取的F1分数达到78%,验证了该方法的有效性,为标题栏信息的自动提取提供了新的思路。

关 键 词:标题栏 LayoutXLM 语义实体识别 关系抽取 

分 类 号:TP391[自动化与计算机技术—计算机应用技术]

 

参考文献:

正在载入数据...

 

二级参考文献:

正在载入数据...

 

耦合文献:

正在载入数据...

 

引证文献:

正在载入数据...

 

二级引证文献:

正在载入数据...

 

同被引文献:

正在载入数据...

 

相关期刊文献:

正在载入数据...

相关的主题
相关的作者对象
相关的机构对象