深度学习技术在音频自动标注中的应用研究  

Research on the Application of Deep Learning Technology in Automatic Audio Tagging

在线阅读下载全文

作  者:王培刚[1] WANG Peigang(Hubei Communications Technical College,Wuhan,Hubei Province,430202 China)

机构地区:[1]湖北交通职业技术学院,湖北武汉430202

出  处:《科技资讯》2024年第15期35-37,共3页Science & Technology Information

摘  要:自动音频标注的目的是从音频输入生成能够描述此音频的一段文字。目前,音频标注模型的效果欠佳,并且在改善音频标注效果的过程中很少有应用预加载模型。自动音频标注的目标为音频片段产生合适的描述语句,拥有处理音频模态和文本模态数据的能力。为此,对音频模态与文本模态的预加载模型进行研究,并提出基于音频模态的自动标注系统和基于文本模态的自动标注系统,解决传统标注方法中训练和测试阶段目标不一致的问题。The purpose of automatic audio tagging is to generate a paragraph of texts that can describe the audio from the audio input.Currently,the effectiveness of audio tagging models is not good,and there are few applica⁃tions of preloading models in improving the audio tagging effect.The goal of automatic audio tagging is to generate appropriate descriptive statements for audio segments,and to have the ability to process audio and text modal data.Therefore,research is conducted on the preloading models of audio and text modalities,and automatic tagging based on audio modality and text modality are proposed to solve the problem of inconsistent goals in the training and testing stages of traditional tagging methods.

关 键 词:音频标注 自动标注 深度学习 预加载模型 

分 类 号:TN912.3[电子电信—通信与信息系统]

 

参考文献:

正在载入数据...

 

二级参考文献:

正在载入数据...

 

耦合文献:

正在载入数据...

 

引证文献:

正在载入数据...

 

二级引证文献:

正在载入数据...

 

同被引文献:

正在载入数据...

 

相关期刊文献:

正在载入数据...

相关的主题
相关的作者对象
相关的机构对象