微软发布 Phi-3.5 系列 AI 模型:上下文窗口 128K

2024-08-21 16:26:11

  微软公司今天发布了 Phi-3.5 系列 AI 模型,本次发布的 Phi-3.5 系列包括 Phi-3.5-MoE、Phi-3.5-vision 和 Phi-3.5-mini 三款轻量级 AI 模型,基于合成数据和经过过滤的公开网站构建,上下文窗口为 128K,所有模型现在都可以在 Hugging Face 上以 MIT 许可的方式获取。附上相关介绍如下:

  Phi-3.5-MoE:首个混合专家模型

  Phi-3.5-MoE 是 Phi 系列中首个利用混合专家技术的模型。该模型在 16 x 3.8B MoE 模型使用 2 个专家仅激活了 66 亿个参数,并使用 512 个 H100 在 4.9T 标记上进行了训练。

  微软研究团队从零开始设计该模型,以进一步提高其性能。在标准人工智能基准测试中,Phi-3.5-MoE 的性能超过了 Llama-3.1 8B、Gemma-2-9B 和 Gemini-1.5-Flash,并接近目前的领先者 GPT-4o-mini。

  Phi-3.5-vision:增强型多帧图像理解

  Phi-3.5-vision 共有 42 亿个参数,使用 256 个 A100 GPU 在 500B 标记上进行训练,现在支持多帧图像理解和推理。

  Phi-3.5-vision 在 MMMU、MMBench和文档理解基准 TextVQA上的性能均有提高。

  Phi-3.5-mini:轻量级、强功能

  Phi-3.5-mini 是一个 38 亿参数模型,超过了 Llama3.1 8B 和 Mistral 7B,甚至可媲美 Mistral NeMo 12B。

  该模型使用 512 个 H100 在 3.4T 标记上进行了训练。该模型仅有 3.8B 个有效参数,与拥有更多有效参数的 LLMs 相比,在多语言任务中具有很强的竞争力。

  此外,Phi-3.5-mini 现在支持 128K 上下文窗口,而其主要竞争对手 Gemma-2 系列仅支持 8K。

下一篇:长城汽车起诉自媒体败诉
上一篇:消息称三星 S25 Ultra 宽 77.6mm,与 iPhone 16 Pro Max 相
返回顶部小火箭