检索规则说明:AND代表“并且”;OR代表“或者”;NOT代表“不包含”;(注意必须大写,运算符两边需空一格)
检 索 范 例 :范例一: (K=图书馆学 OR K=情报学) AND A=范并思 范例二:J=计算机应用与软件 AND (U=C++ OR U=Basic) NOT M=Visual
作 者:李昊渊
机构地区:[1]河北地质大学信息工程学院,河北 石家庄 [2]河北地质大学人工智能与机器学习研究室,河北 石家庄
出 处:《计算机科学与应用》2025年第1期199-208,共10页Computer Science and Application
摘 要:语音驱动人脸生成旨在生成与参考人脸具有相同身份信息,与语音内容相对应的说话人脸视频。针对现有方法中生成人脸身份信息较差、脸部细节较差的问题,提出了一种基于关键点的语音驱动说话人脸视频生成模型LTFG-GAN。该模型首先将基于在语音识别领域微调的无监督预训练模型作为语音编码器,通过融合卷积与注意力机制预测人脸关键点;其次在人脸生成过程中加入交叉注意力机制获取原始参考人脸信息,通过条件卷积与空间自适应归一化将扭曲得到高维形变人脸信息与原始人脸信息融合;最终得到与语音同步的说话人脸视频。实验结果表明,上述方法对于人脸的生成有明显地提升。Voice driven face generation aims to generate speech facial videos that have the same identity information as the reference face and correspond to the speech content. A speech driven facial video generation model based on landmarks, LTFG-GAN, is proposed to address the issues of poor facial identity information and facial details in existing methods. The model first uses an unsupervised pre trained model fine-tuned in the field of speech recognition as a speech encoder, and predicts facial landmarks by integrating convolution and attention mechanisms;Secondly, a cross-attention mechanism is added to the face generation process to obtain the original reference face information. The distorted high-dimensional deformed face information is fused with the original face information through conditional convolution and spatial adaptive normalization;The final result is a speech synchronized facial video. The experimental results show that the above method has a significant improvement in face generation.
关 键 词:人脸生成 深度学习 Wav2vec 交叉注意力机制 条件卷积
分 类 号:TP3[自动化与计算机技术—计算机科学与技术]
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在链接到云南高校图书馆文献保障联盟下载...
云南高校图书馆联盟文献共享服务平台 版权所有©
您的IP:3.148.243.252