基于Stable Diffusion的图像生成与多模态编辑智能体  被引量:1

在线阅读下载全文

作  者:童同 肖阳 马田瑶 卢菁 

机构地区:[1]中国移动信息技术中心

出  处:《通信世界》2024年第13期46-48,共3页Communications World

摘  要:随着多模态大模型的不断发展,以“文生图”为代表的人工智能生成内容(AIGC)技术逐步趋于成熟,生成内容的质量与多样性得到了大幅提升,AIGC已为文宣、文档创作、数字人、短视频等领域提供了强大的助力。以Stable Diffusion为代表的扩散模型簇成为“文生图”领域的先进算法之一,该类模型以热力学作为理论基础,采用U-net、Transformer等模型架构,建模图像分布与随机高斯噪声分布关联,进而实现多样化的图像生成。结合Stable Diffusion模型,中国移动信息技术中心智能AI研发团队提出了一套图像生成与多模态编辑智能体。该智能体能够基于用户输入的文本与条件图像,通过意图识别、槽位提取、任务编排等流程,生成符合用户要求的图像或完成图像内容编辑。目前,该智能体已用于中国移动MOA AI助手、智能交互数字人、妙笔文档等产品中,取得了良好的用户反响。

关 键 词:智能体 模型架构 人工智能 信息技术中心 槽位 多模态 高斯噪声 短视频 

分 类 号:TP3[自动化与计算机技术—计算机科学与技术]

 

参考文献:

正在载入数据...

 

二级参考文献:

正在载入数据...

 

耦合文献:

正在载入数据...

 

引证文献:

正在载入数据...

 

二级引证文献:

正在载入数据...

 

同被引文献:

正在载入数据...

 

相关期刊文献:

正在载入数据...

相关的主题
相关的作者对象
相关的机构对象