B站开源动漫生成模型 AniSora V3 版，速度更快、质

2025-07-07 09:06:45

　　B站团队的开源动漫生成模型 AniSora 于 7 月 2 日更新到作为 Index-AniSora 项目的一部分，V3 版本在原有基础上进一步优化了生成质量、动作流畅度和风格多样性，为动漫、漫画及 VTuber 内容创AniSora 支持一键生成多种动漫风格的镜头，包括番剧片段、国创动画、漫画改编、VTuber 内容、动画 PV、鬼畜等。

　　AniSora V3 基于B站此前开源的 CogVideoX-5B 和 Wan2.1-14B 模型，结合强化学习与人类反馈框架，核心升级包括：

　　时空掩码模块优化：V3 版本增强了时空控制能力，支持更复杂的动画任务，如精细的角色表情控制、动态镜头移动和局部图像引导生成。例如，提示“五位女孩在镜头放大时起舞，左手上举至头顶再下放至膝盖”能生成流畅的舞蹈动画，镜头与角色动作同步自然。数据集扩展：V3 继续依托超过 1000 万高质量动漫片段进行训练，新增数据清洗流水线，确保生成内容的风格一致性和细节丰富度。硬件优化：V3 新增对华为 Ascend910B NPU 的原生支持，完全基于国产芯片训练，推理速度提升约 20%，生成 4 秒高清仅需 2-3 分钟。多任务学习：V3 强化了多任务处理能力，支持从单帧图像生成、关键帧插值到唇部同步等功能，特别适合漫画改编和 VTuber 内容创作。

　　在最新基准测试中，AniSora V3 在VBench和双盲主观测试中，角色一致性和动作流畅度均达到业界顶尖水平，尤其在复杂动作上表现突出。

　　AniSora V3 支持多种动漫风格，包括日本动漫、国产动画、漫画改编、VTuber 内容及恶搞动画，覆盖 90% 的动漫应用场景。具体应用包括：

　　单图转：用户上传一张高质量动漫图像，配合文本提示，即可生成动态，保持角色细节和风格一致。漫画改编：从漫画帧生成带唇部同步和动作的动画，适合快速制作预告片或短篇动画。VTuber 与游戏：支持实时生成角色动画，助力独立创AIbase 测试显示，V3 在生成复杂场景时，相比 OpenAI 的 Sora 或 Kling 等通用生成模型，AniSora V3 专注于动漫领域。与字节跳动的 EX-4D 相比，AniSora V3 更专注于 2D / 2.5D 动漫风格，而非 4D 多视角生成。

　　附开源地址：