OpenAI 上线安全评估中心，定期公开AI模型评估结

2025-05-15 16:11:42

　　OpenAI 宣布将更频繁地公开其内部人工智能模型的安全评估结果，以提高透明度。该公司于周三正式上线了“安全评估中心”网页，旨在展示其模型在有害内容生成、模型越狱以及幻觉现象等方面的测试表现。

　　OpenAI 表示，此前，OpenAI 曾因部分旗舰模型的安全测试流程过快以及未发布其他模型的技术报告而受到一些伦理学家的批评。公司首席执行官山姆・奥尔特曼也因被指在 2023 年 11 月短暂被免职前误导公司高管关于模型安全审查的问题而备受争议。

　　就在上个月末，OpenAI 不得不撤销对 ChatGPT 默认模型 GPT-4o 的一次更新。原因是用户报告称该模型的回应方式过于“谄媚”，甚至对一些有问题的、危险的决策和想法也表示赞同。针对这一事件，OpenAI 表示将采取一系列修复和改进措施，以防止类似事件再次发生。其中包括为部分模型引入一个可选的“alpha 阶段”，允许部分 ChatGPT 用户在模型正式发布前进行测试并提供反馈。