谷歌 DeepMind 新研究：利用 AI 模型为无声配音

2024-06-18 23:10:07

　　据谷歌DeepMind新闻稿，DeepMind 近日公布了一项利用AI为无声生成背景音乐的“video-to-audio”技术。

　　获悉，当前 DeepMind 这款AI模型依然存在局限性，需要开发者使用提示词为模型预先“介绍”可能的声音，据悉，该模型首先会将用户输入的进行拆解，此后结合用户的用户文字提示，利用扩散模型反复运算，最终以生成与画面协调的背景声音，例如输入一条“在黑暗中行走”的无声，再添加“电影、恐怖片、音乐、紧张、混凝土上的脚步声”等文字提示，相关模型就能生成恐怖风格的背景音效。

　　DeepMind同时表示，该“video-to-audio”模型可以为任何生成无限数量的音轨，展望未来，DeepMind表示研究人员正进一步优化这款“video-to-audio”模型，计划未来能够让模型直接根据内容，无须通过提示词即可生成背景音，同时还将改善中人物对白的口型同步能力。