腾讯混元生成工具 HunyuanCustom 宣布开源

2025-05-09 12:48:57

　　腾讯混元宣布今天正式推出并开源全新的多模态定制化生成工具 Hunyuan Custom。该模型基于混元生成大模型打造，主体一致性效果超过现有的开源方案。

　　据介绍，Hunyuan Custom 融合了文本、图像、音频、等多模态输入生的能力，是一款具备高度控制力和生成质量的智能创作工具。

　　腾讯表示，Hunyuan Custom 模型能实现单主体生成、多主体生成、单主体配音、局部其中，单主体生成能力已经开源并在混元官网上线，用户可以在“模型广场-图生-参考生”中体验，其他能力将于 5 月内陆续对外开源。

　　有了 HunyuanCustom，用户只需上传一张包含目标人物或物体的，并提供一句文本描述，HunyuanCustom 就能识别出中的身份信息，并在完全不同的动作、服饰与场景中生成连贯自然的内容。除了单主体以外，这个能力同样能实现多主体的生成，用户提供一张人物和一张物体的照片，并输入文字描述，即可能让这两个主体按要求出现在里。此外，HunyuanCustom 不止于图像和文本的配合，还具备强大的扩展能力。在音频驱动模式下，用户可以上传人物图像并配上音频语音，模型便可生成人物在任意场景中说话、唱歌或进行其他音同步表演的效果，广泛适用于数字人直播、虚拟客服、教育演示等场景。在驱动模式下，HunyuanCustom 支持将中的人物或物体自然地替换或插入到任意片段中，进行创意植入或场景扩展，轻松实现重构与内容增强。此前大部分的生成模型主要能实现文生和图生。文生每次均根据提示词重新生成，很难持续保持人物和场景的一致性。而图像生成模型主要实现的是“让动起来”。例如，上传一张人物照片，最终生成的通常只能在照片的原始服饰、姿态和场景下做出一些固定表情或动作，服装、背景和姿态几乎无法修改。但在部分场景下，创参考资料：

　　体验入口：项目官网：代码开源：论文地址：