基于Stable-Diffusion的AI绘画方法  

AI Painting Method Based on Stable-Diffusion

在线阅读下载全文

作  者:冉昕哲 高琛 黄小明 梁嘉桐 倪芊睿 程思琪 

机构地区:[1]北京信息科技大学计算机学院,北京

出  处:《计算机科学与应用》2024年第5期147-155,共9页Computer Science and Application

摘  要:本研究旨在开发一种基于AI技术的音频可视化方法,该方法能够将音频信号转化为符合歌曲主题的图片集以及视频。在此过程中,首先提取了音频中的平均频率、平均LUFS、平均相位等参数,并使用自然语言描述进行区间划分。随后利用GPT模型将音频数据描述转化为文字形式,为稳定扩散算法提供实例化的提示。在技术方案中,我们引入了基于Stable-Diffusion的AI绘画方法,通过对音频信息的处理与关键字生成,最终生成了高质量且逼真的音频可视化艺术作品。此外,我们还成功地将生成的艺术作品转化为相应的视频作品。整个流程具有较高的自由度和创造力,可为音乐和艺术创作领域带来新的可能性。The aim of this study is to develop an audio visualization method based on AI techniques that can transform the audio signal into a collection of pictures as well as videos that match the theme of the song. In this process, parameters such as average frequency, average LUFS, and average phase in the audio are first extracted and intervalized using natural language descriptions. Subsequently, the audio data descriptions are converted into textual form using the GPT model to provide instantiated cues for the stabilizing diffusion algorithm. In the technical solution, we introduced a Stable-Diffusion-based AI painting method to process the audio information with keyword generation, which ultimately generates high-quality and realistic audio visualization artworks. In addition, we successfully transformed the generated artworks into corresponding video works. The whole process has a high degree of freedom and creativity, which can bring new possibilities to the field of music and art creation.

关 键 词:AI技术 音频可视化 稳定扩散算法 GPT模型 

分 类 号:TP3[自动化与计算机技术—计算机科学与技术]

 

参考文献:

正在载入数据...

 

二级参考文献:

正在载入数据...

 

耦合文献:

正在载入数据...

 

引证文献:

正在载入数据...

 

二级引证文献:

正在载入数据...

 

同被引文献:

正在载入数据...

 

相关期刊文献:

正在载入数据...

相关的主题
相关的作者对象
相关的机构对象