基于声音识别的网络多媒体视觉图像重构处理方法  

A Method for Reconstructing Network Multimedia Visual Images Based on Voice Recognition

在线阅读下载全文

作  者:韩黄英[1] HAN Huangying(Shanxi Polytechnic College,Taiyuan 030006,China)

机构地区:[1]山西职业技术学院,山西太原030006

出  处:《电声技术》2025年第1期122-124,共3页Audio Engineering

基  金:山西省教育科学“十四五”规划课题(GH-220175)。

摘  要:提出一种基于声音识别的网络多媒体视觉图像重构处理方法,旨在利用音频数据实现跨模态的视觉信息生成。该方法通过音频特征提取与分类、跨模态关联学习及视觉图像生成与优化,实现从声音信号到高质量视觉图像的跨模态转换。实验结果表明,该方法在峰值信噪比、结构相似性及弗雷歇距离等评价指标上均优于现有方法,能够有效提升视觉图像的重构质量。A network multimedia visual image reconstruction processing approach based on sound recognition is proposed,with the aim of achieving cross-modal visual information generation by leveraging audio data.This approach realizes the cross-modal transformation from audio signals to high-quality visual images through audio feature extraction and classification,cross-modal association learning,as well as visual image generation and optimization.Experimental results demonstrate that this method surpasses existing ones in evaluation metrics such as peak signal-to-noise ratio,structural similarity,and Frechet Distance,effectively enhancing the reconstruction quality of visual images.

关 键 词:声音识别 跨模态 生成对抗网络(GAN) 

分 类 号:TN391.41[电子电信—物理电子学] TN912.3

 

参考文献:

正在载入数据...

 

二级参考文献:

正在载入数据...

 

耦合文献:

正在载入数据...

 

引证文献:

正在载入数据...

 

二级引证文献:

正在载入数据...

 

同被引文献:

正在载入数据...

 

相关期刊文献:

正在载入数据...

相关的主题
相关的作者对象
相关的机构对象