基于多头注意力融合的场景文本识别

Scene Text Recognition Based on Multi-head Attention Fusion

作　　者：黄俊炀陈宏辉王嘉宝陈平平[1] HUANG Junyang;CHEN Honghui;WANG Jiabao;CHEN Pingping(College of Physics and Information Engineering,Fuzhou University,Fuzhou 350108,China)

机构地区：[1]福州大学物理与信息工程学院,福建福州350108

出　　处：《无线电工程》2024年第11期2576-2584,共9页Radio Engineering

基　　金：国家自然科学基金(62171135,62071131);福建省杰青项目(2022J06010);省教育厅重点攻关项目(2023XQ004)。

摘　　要：场景文本识别(Scene Text Recognition, STR)使计算机能够获取自然场景图像中的文本信息。在STR的研究中识别准确性始终是关注重点。对于计算资源受限的边缘设备,模型的参数量和计算效率也同样重要。针对该问题,提出了基于多头注意力融合的自然场景文本识别(Scene Text Recognition Based on Multi-Head Attention Fusion, MAF)算法。通过利用多头注意力(Multi-Head Attention, MHA)机制设计了视觉编码器,实现对规则和不规则场景文本图像的视觉特征深度提取。为了增强模型对字符间间距变化和语义相似性的感知能力,提出了增强位置编码以及结合输入上下文和置换模型的语义编码器。通过MHA将视觉和语义特征信息融合,提高在复杂环境背景下的文本字符识别准确率。实验结果表明,MAF的参数量仅为7.6×10^(6),FLOPS为1.0×10^(9),在真实STR数据集上的平均识别准确率达到95.6%,有效平衡了识别任务的准确性和计算效率,具有一定的应用潜力。Scene Text Recognition(STR)enables computers to read text in scene images.Accuracy of recognition has always been the focus of STR research.However,speed and computational efficiency are equally important for edge devices with limited computational resources.To address this issue,a Scene Text Recognition Based on Multi-Head Attention Fusion(MAF)algorithm is proposed.By utilizing the Multi-Head Attention(MHA)mechanism to design the visual encoder,the deep extraction of visual features from both regular and irregular scene text images is achieved.In order to enhance the perception of changes in character spacing and semantic similarity,enhanced position encoding and a semantic encoder that combines input context and permutation models are proposed.Finally,the visual and the semantic feature information are fused using MHA to improve the accuracy of text character recognition in complex environmental backgrounds.Experiment results show that MAF has a parameter size of only 7.6×10^(6) and FLOPS of 1.0×10^(9),and achieves an average recognition accuracy of 95.6%on real STR datasets.It effectively balances the accuracy and computational efficiency of the recognition task,showing promising application potential.

关键词：计算机视觉场景文本识别注意力机制特征信息关联

分类号：TN911.73[电子电信—通信与信息系统]

参考文献：

正在载入数据...

二级参考文献：

正在载入数据...

耦合文献：

正在载入数据...

引证文献：

正在载入数据...

二级引证文献：

正在载入数据...

同被引文献：

正在载入数据...

高级检索 检索式检索

时间限定

期刊范围

学科限定全选

高级检索 检索式检索

时间限定

期刊范围

学科限定全选

基于多头注意力融合的场景文本识别

我的收藏

参考文献：

二级参考文献：

耦合文献：

引证文献：

二级引证文献：

同被引文献：

相关期刊文献：

相关的主题

相关的作者对象

相关的机构对象

下载全文

高级检索检索式检索

时间限定

期刊范围

学科限定全选

高级检索 检索式检索

时间限定

期刊范围

学科限定全选

基于多头注意力融合的场景文本识别

我的收藏

参考文献：

二级参考文献：

耦合文献：

引证文献：

二级引证文献：

同被引文献：

相关期刊文献：

相关的主题

相关的作者对象

相关的机构对象

下载全文

用户登录

高级检索检索式检索