检索规则说明:AND代表“并且”;OR代表“或者”;NOT代表“不包含”;(注意必须大写,运算符两边需空一格)
检 索 范 例 :范例一: (K=图书馆学 OR K=情报学) AND A=范并思 范例二:J=计算机应用与软件 AND (U=C++ OR U=Basic) NOT M=Visual
作 者:李俊华 段志奎 于昕梅 LI Junhua;DUAN Zhikui;YU Xinmei(School of Electronic Information Engineering,Foshan University,Foshan 528225,China)
机构地区:[1]佛山科学技术学院电子信息工程学院,广东佛山528225
出 处:《佛山科学技术学院学报(自然科学版)》2024年第3期27-34,共8页Journal of Foshan University(Natural Science Edition)
基 金:广东省普通高校重点实验室资助项目(2021KSYS008)。
摘 要:Transformer模型在自动语音识别(ASR)任务中展现出优秀的性能,但在特征提取方面存在两个问题:一是模型集中于全局特征交互信息提取,忽略了其他有用的特征信息,如局部特征交互信息;二是模型对低层特征交互信息的利用不够充分。为了解决这两个问题,提出了卷积线性映射(CMLP)模块以强化局部特征交互,并设计低层特征融合(LF)模块来融合高低层特征。通过整合这些模块,构建了CLformer模型。在两个中文普通话数据集(Aishell-1和HKUST)上进行实验,结果表明,CLformer显著提升了模型性能,在Aishell-1上较基线提高0.3%,在HKUST上提高0.5%。The Transformer model demonstrates excellent performance in the task of automatic speech recognition(ASR),but there is still room for improvement in feature extraction.This study identifies two main issues with the model:first,it focuses on extracting global feature interactions,overlooking other useful features such as local feature interactions;second,it does not fully utilize low-level feature interactions.To address these issues and enhance the model’s performance in ASR tasks,we propose a Convolutional Linear Mapping(CMLP)module to enhance local feature interactions and a Low-level Feature Fusion(LF)module to integrate high-level and low-level features.By integrating these modules,we construct the CLformer model.Experimental results on two Chinese Mandarin datasets(Aishell-1 and HKUST)demonstrate that CLformer significantly improves model performance:by 0.3%on Aishell-1 and 0.5%on HKUST compared to the baseline.This validates the effectiveness of our optimization strategy.
关 键 词:Transformer模型 自动语音识别 特征增强 局部特征 特征融合
分 类 号:TP18[自动化与计算机技术—控制理论与控制工程]
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在链接到云南高校图书馆文献保障联盟下载...
云南高校图书馆联盟文献共享服务平台 版权所有©
您的IP:3.144.132.48