智谱开源GLM-PC 基座模型CogAgent-9B,让 AI 智能体“

2024-12-27 09:11:32

  智谱技术团队昨日发布博文,宣布开源 GLM-PC 的基座模型 CogAgent-9B-20241220,基于 GLM-4V-9B 训练,专用于智能体任务。

  注:该模型仅需屏幕作为输入,便能根据用户指定的任意任务,结合历史操作,预测下一步的 GUI 操作。

  得益于屏幕和 GUI 操作的普适性,CogAgent 可广泛应用于各类基于 GUI 交互的场景,如个人电脑、手机、车机设备等。

  相较于 2023 年 12 月开源的第一版 CogAgent 模型,CogAgent-9B-20241220 在 GUI 感知、推理预测准确性、动作空间完善性、任务普适性和泛化性等方面均实现了显著提升,并支持中英文双语的屏幕和语言交互。

  CogAgent 的输入仅包含三部分:用户的自然语言指令、已执行历史动作记录和 GUI ,无需任何文本形式表征的布局信息或附加元素标签信息。

  其输出涵盖以下四个方面:

  CogAgent-9B-20241220 在 Screenspot、OmniAct、CogAgentBench-basic-cn 和 OSWorld 等数据集上进行了测试,并与 GPT-4o-20240806、Claude-3.5-Sonnet、Qwen2-VL、ShowUI、SeeClick 等模型进行了比较。

  结果显示,CogAgent 在多个数据集上取得了领先的结果,证明了其在 GUI Agent 领域强大的性能。

下一篇:消息称比亚迪成立未来实验室研发具身智能:包
上一篇:竖屏 Flyme Auto 系统保留独有“灵魂”圆环、Smar
返回顶部小火箭