可让照片人物“开口说话”,阿里巴巴推出 AI 框架“EMO”

2024-03-01 18:39:17

  阿里巴巴研究团队近日发布了一款名为“EMO”的 AI 框架,该框架号称可以用于“对口型”,只需要输入人物照片及音频,模型就能够让照片中的人物开口说出相关音频,支持中英韩等语言。

  据悉,EMO 基于英伟达的Audio2Video扩散模型打造,号称使用了超过250小时的专业进行训练,从而得到了相关AI框架。

  研究团队分享了几段由EMO框架生成的 DEMO 演示片段,并在ArXiv上发布了模型的工作原理,感兴趣的小伙伴也可以访问 GitHub 查看项目。

  ▲ 据介绍,该框架工作过程分为两个主要阶段,研究人员首先利用参考网络从参考图像和动作帧中提取特征,之后利用预训练的音频编码器处理声音并嵌入,再结合多帧噪声和面部区域掩码来生成,该框架还融合了两种注意机制和时间模块,以确保中角色身份的一致性和动作的自然流畅。

  研究人员援引一系列实验结果,声称EMO不仅能够产生令人信服的说话,还能生成各种风格的歌唱,号称“显著优于目前的DreamTalk、Wav2Lip、SadTalker 等竞品”。

下一篇:英特尔公布德国马格德堡 Fab29 晶圆厂蓝图
上一篇:Sabrent 推出 Rocket 5 PCIe 5.0 SSD:读速 14 GBs,189 美元起
返回顶部小火箭