检索规则说明:AND代表“并且”;OR代表“或者”;NOT代表“不包含”;(注意必须大写,运算符两边需空一格)
检 索 范 例 :范例一: (K=图书馆学 OR K=情报学) AND A=范并思 范例二:J=计算机应用与软件 AND (U=C++ OR U=Basic) NOT M=Visual
作 者:韩黄英[1] HAN Huangying(Shanxi Polytechnic College,Taiyuan 030006,China)
出 处:《电声技术》2025年第1期122-124,共3页Audio Engineering
基 金:山西省教育科学“十四五”规划课题(GH-220175)。
摘 要:提出一种基于声音识别的网络多媒体视觉图像重构处理方法,旨在利用音频数据实现跨模态的视觉信息生成。该方法通过音频特征提取与分类、跨模态关联学习及视觉图像生成与优化,实现从声音信号到高质量视觉图像的跨模态转换。实验结果表明,该方法在峰值信噪比、结构相似性及弗雷歇距离等评价指标上均优于现有方法,能够有效提升视觉图像的重构质量。A network multimedia visual image reconstruction processing approach based on sound recognition is proposed,with the aim of achieving cross-modal visual information generation by leveraging audio data.This approach realizes the cross-modal transformation from audio signals to high-quality visual images through audio feature extraction and classification,cross-modal association learning,as well as visual image generation and optimization.Experimental results demonstrate that this method surpasses existing ones in evaluation metrics such as peak signal-to-noise ratio,structural similarity,and Frechet Distance,effectively enhancing the reconstruction quality of visual images.
关 键 词:声音识别 跨模态 生成对抗网络(GAN)
分 类 号:TN391.41[电子电信—物理电子学] TN912.3
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在链接到云南高校图书馆文献保障联盟下载...
云南高校图书馆联盟文献共享服务平台 版权所有©
您的IP:216.73.216.222