阿里云通义千问 Qwen2.5-Omni 旗舰模型发布,看听说
今日凌晨,阿里云发布通义千问 Qwen 模型家族中新一代端到端多模态旗舰模型 ——Qwen2.5-Omni,并在 Hugging Face、ModelScope、DashScope 和 GitHub 上开源。
阿里云表示,该模型专为全方位多模态感知设计,能够无缝处理文本、图像、音频和等多种输入形式,并通过实时流式响应同时生成文本与自然语音合成输出。汇总其主要特点如下:
据官方介绍,Qwen2.5-Omni 采用 Thinker-Talker 双核架构。Thinker 模块如同大脑,负责处理文本、音频、等多模态输入,生成高层语义表征及对应文本内容;Talker 模块则类似发声器官,以流式方式接收 Thinker 实时输出的语义表征与文本,流畅合成离散语音单元。Thinker 基于 Transformer 解码器架构,融合音频 / 图像编码器进行特征提取;Talker 则采用双轨自回归 Transformer 解码器设计,在训练和推理过程中直接接收来自 Thinker 的高维表征,并共享全部历史上下文信息,形成端到端的统一模型架构。
模型架构图
模型性能方面,Qwen2.5-Omni 在包括图像,音频,音等各种模态下的表现都优于类似大小的单模态模型以及封闭源模型,例如 Qwen2.5-VL-7B、Qwen2-Audio 和 Gemini-1.5-pro。
在多模态任务 OmniBench,Qwen2.5-Omni 达到了 SOTA 的表现。此外,在单模态任务中,Qwen2.5-Omni 在多个领域中表现优异,包括语音识别、翻译、音频理解、图像推理、理解以及语音生成。
▲模型性能图
Qwen Chat:
Hugging Face:
ModelScope:
DashScope:
GitHub:
Demo 体验: