苹果携手复旦大学推 StreamBridge 端侧大语言模型框
科技媒体 marktechpost 今天发布博文,报道称苹果公司联合复旦大学,传统大语言模型擅长处理静态,但无法适应机器人技术和自动驾驶等需要实时感知的场景,在这些场景下,要求模型能快速理解直播流内容,并做出反应。
现有的模型面临两大难题:一是多轮实时理解,即在处理最新片段时需保留历史为解决上述问题,苹果公司与复旦大学的研究者开发了 StreamBridge 框架。该框架通过内存缓冲区和轮次衰减压缩策略,支持长上下文交互。
该框架还引入了一个轻量化的独立激活模型,无缝集成现有大语言模型,实现主动响应功能。研究团队还推出了 Stream-IT 数据集,包含约 60 万个样本,融合了与文本序列,支持多样化的指令格式,旨在提升流式理解能力。
StreamBridge 在主流离线模型如 LLaVA-OV-7B、Qwen2-VL-7B 和 Oryx-1.5-7B 上进行了测试。结果显示,Qwen2-VL 在 OVO-Bench 和 Streaming-Bench 上的平均分分别提升至 71.30 和 77.04,超越了 GPT-4o 和 Gemini 1.5 Pro 等专有模型。
Oryx-1.5 也取得了显著进步,而 LLaVA-OV 性能略有下降。Stream-IT 数据集的微调进一步提升了所有模型的表现,证明了 StreamBridge 在流式理解领域的强大潜力。
附上参考地址
