OpenAI 史上最强 ChatGPT 智能体发布:逛网站、做
OpenAI 今日凌晨宣布将在 ChatGPT 中推出一款OpenAI 介绍称,该智能体可以自动生成可该工具名为 ChatGPT agent,为了开发这个新工具,OpenAI 将其背后的 Operator 和 Deep Research 团队合并为一个统一的团队。外媒 The Verge 报道称,这个新团队由产品和研究部门共 20~35 人组成。
OpenAI 表示 ChatGPT 智能体比其之前的任何产品都要强大得多,可以访问 ChatGPT 连接器,根据 OpenAI 的说法,ChatGPT 智能体的底层模型在多个基准测试中提供了最先进的性能。ChatGPT 智能体模型在 Humanitys Last Exam中得分率为 41.6%,这是一项由数千个问题组成的、涵盖超过一百个学科的困难测试。在已知最难的数学基准测试之一 FrontierMath 中,OpenAI 表示,当 ChatGPT 智能体可以访问工具时,其得分为 27.4%,之前的最佳分数来自 o4-mini。
在 DSBench 测试中,该测试旨在评估智能体在涵盖数据分析和建模等现实数据科学任务中的表现,ChatGPT 智能体显著超越了之前的最先进模型 —— 尤其在数据分析任务中,其表现明显优于人类水平。
在 SpreadsheetBench 平台上,该平台通过评估模型在处理基于真实世界场景的电子表格在内部基准测试中,该模型展现了其处理投资银行分析师任务的能力,例如为在 WebArena 基准测试中,该模型相较于由 o3 驱动的 CUA表现更佳。
ChatGPT 智能体在 BrowseComp 上的表现方面,用于衡量浏览智能体在网络上查找难以找到的信息的能力。具体使用场景方面:
在工作中,用户可以自动处理重复性任务,例如将或面板转换为由可安全方面,OpenAI 表示用户将始终掌握控制权。用户可以通过ChatGPT 智能体即日起向 OpenAI 表示,OpenAI 正在训练 ChatGPT 幻灯片创建功能的下一代版本,以生成更精致、更复杂的输出,并具备更广泛的功能和改进的格式化能力。
