腾讯混元生成工具 HunyuanCustom 宣布开源
腾讯混元宣布今天正式推出并开源全新的多模态定制化生成工具 Hunyuan Custom。该模型基于混元生成大模型打造,主体一致性效果超过现有的开源方案。
据介绍,Hunyuan Custom 融合了文本、图像、音频、等多模态输入生的能力,是一款具备高度控制力和生成质量的智能创作工具。
腾讯表示,Hunyuan Custom 模型能实现单主体生成、多主体生成、单主体配音、局部其中,单主体生成能力已经开源并在混元官网上线,用户可以在“模型广场-图生-参考生”中体验,其他能力将于 5 月内陆续对外开源。
有了 HunyuanCustom,用户只需上传一张包含目标人物或物体的,并提供一句文本描述,HunyuanCustom 就能识别出中的身份信息,并在完全不同的动作、服饰与场景中生成连贯自然的内容。除了单主体以外,这个能力同样能实现多主体的生成,用户提供一张人物和一张物体的照片,并输入文字描述,即可能让这两个主体按要求出现在里。此外,HunyuanCustom 不止于图像和文本的配合,还具备强大的扩展能力。在音频驱动模式下,用户可以上传人物图像并配上音频语音,模型便可生成人物在任意场景中说话、唱歌或进行其他音同步表演的效果,广泛适用于数字人直播、虚拟客服、教育演示等场景。在驱动模式下,HunyuanCustom 支持将中的人物或物体自然地替换或插入到任意片段中,进行创意植入或场景扩展,轻松实现重构与内容增强。 此前大部分的生成模型主要能实现文生和图生。文生每次均根据提示词重新生成,很难持续保持人物和场景的一致性。而图像生成模型主要实现的是“让动起来”。例如,上传一张人物照片,最终生成的通常只能在照片的原始服饰、姿态和场景下做出一些固定表情或动作,服装、背景和姿态几乎无法修改。 但在部分场景下,创参考资料:
体验入口:项目官网:代码开源:论文地址: