腾讯混元 DiT 文生图大模型开源 6G 小显存版,一

2024-07-04 19:08:28

  腾讯混元文生图大模型今日宣布开源小显存版本,此外,腾讯宣布混元文生图打标模型“

  腾讯混元 DiT 模型升级

  腾讯混元 DiT 模型宣布了三大更新:基于 DiT 架构的文生图模型生成质感更佳,但对显存的要求却非常高,混元 DiT 因此推出小显存版本,经过与 Hugging Face 合作,小显存版本、LoRA 与 ControlNet 插件,都已经适配到 Diffusers 库中。同时,混元 DiT 宣布接入 Kohya,Kohya 是一个开源的、轻量化模型微调训练服务,提供了图形化的用户界面,被广泛用于扩散模型类文生图模型的训练。

  用户可以通过图形化界面,完成模型的全参精调及 LoRA 训练,无需涉及到代码层面的细节。训练好的模型符合 Kohya 生态架构,可以低成本与 WebUI 等推理界面结合,实现一整套“训练-生图”工作流。

  混元 Captioner

  在提升模型易用性的同时,腾讯混元团队最新开源了打标模型 —— 借助打标模型,开发者可以快速生成数据集。具体来说,文生图开发者将原始集导入混元 Captioner,后者将生成标注;也可以导入与原始描述,利用混元 Captioner 过滤其中的无关信息,并完善和优化描述,以提高数据质量。

  目前,业界对于描述文本的生成,主要使用通用多模态 Captioner 模型,存在描述过于简单或繁琐、缺少背景知识导致无法识别知名人物和地标等问题,

  ▲混元 Captioner 对描述进行结构化与准确度提升混元

  Captioner 模型号称针对文生图场景专门进行优化:

  构建了结构化的描述体系;

  在模型层面,通过注入人工标注、模型输出、公开数据等多种

  注入知名文学作品形象、地标、食物、动物、中国元素与知识等背景知识。

  ▲Capiton 模型的背景知识更好,能够识别宫保鸡丁

  ▲Captioner 模型结构化描述体系

  附腾讯混元开源文生图大模型相关链接:

  官网:

  代码:

  模型:

  论文:

下一篇:十热管双风扇双塔,快睿推出 TE10 风冷散热器
上一篇:竞争激烈利润微薄,Alphabet 关闭农业 AI 机器人企
返回顶部小火箭