返回文章列表
AI日报
GPT-5.4
OpenAI
大模型
评测

AI 技术日报 | GPT-5.4 正式发布 (2026-03-06)

2026年3月6日 01:308 分钟加载中作者: Lhy099

TL;DR

OpenAI 于 3月5日 正式发布 GPT-5.4,这是其首款具备原生计算机操控能力的通用模型。综合评分 75.1/100(7.5/10),在 GDPval 知识工作基准上 83% 任务超越人类专家,OSWorld 电脑操控测试 75% 首次超过人类基线(72.4%)。


🚀 GPT-5.4 正式发布

发布时间: 2026-03-05
上线渠道: ChatGPT、API、Codex 同步开放

GPT-5.4 是 OpenAI 首次将 推理(Reasoning)、编程(Coding)、原生计算机交互(Computer Use)、深度网页搜索、百万级 Token 上下文 整合至单一模型的「大一统」成果。


📊 综合评分与基准测试

综合评分

评分项得分
综合评分75.1/100
星级评分7.5/10

核心基准测试

基准测试GPT-5.4GPT-5.2对比
GDPval(44种职业知识工作)83.0%70.9%+12.1%
OSWorld-Verified(桌面操控)75.0%47.3%+27.7%
SWE-Bench Pro(软件工程)57.7%55.6%+2.1%
BrowseComp(持续网页搜索)82.7%65.8%+16.9%
GPQA Diamond(博士级科学)92.8%--
投行级表格建模87.3%68.4%+18.9%
MMMU-Pro(视觉推理)81.2%79.5%+1.7%

关键里程碑: OSWorld 测试中 75% 成功率首次超越人类基线(72.4%),标志着 AI 在桌面环境操作能力上正式超过人类水平。


💡 核心能力解析

1. 原生计算机操控能力

  • 首款支持原生 Computer Use 的通用模型
  • 可通过屏幕截图 + 键盘/鼠标指令直接操控电脑
  • WebArena-Verified 浏览器操作成功率 67.3%
  • Online-Mind2Web 测试成功率 92.8%

2. 幻觉率显著降低

  • 单个事实陈述错误概率降低 33%
  • 整段回答包含错误的概率降低 18%
  • OpenAI 称其为「迄今事实准确性最高的模型」

3. 工具搜索机制(Tool Search)

  • 改变传统「一次性加载所有工具定义」的模式
  • 按需查询工具详情,支持缓存复用
  • MCP 工作流 Token 消耗降低 47%
  • 准确率保持不变,成本大幅下降

4. 上下文窗口

  • 标准支持 100万 Token 上下文
  • 最大输出 128K Token
  • 最佳表现区间:128K-272K(超过272K按双倍配额计费)

💰 定价信息

API 定价(每百万 Token)

版本InputCached InputOutput
GPT-5.4$2.50$0.25$15.00
GPT-5.4 Pro$30.00-$180.00
GPT-5.2(对比)$1.75$0.175$14.00

ChatGPT 订阅

  • Plus/Team/Pro 用户: 可使用 GPT-5.4 Thinking(替代 GPT-5.2 Thinking)
  • GPT-5.2 退役时间: 2026年6月5日
  • Pro 用户: 额外获得 GPT-5.4 Pro 访问权限

成本优化: 虽然单 Token 价格上涨 43%,但由于 Token 效率提升,多数任务总成本可能不增反降。


🏆 与竞品对比

能力维度GPT-5.4Claude Opus 4.6Gemini 3.1 Pro
知识工作 (GDPval)83%--
桌面操控 (OSWorld)75%--
编程 (SWE-Bench Pro)57.7%74.5%-
API 成本(相对)基准~2x-

评价: GPT-5.4 在通用能力和 Agent 任务上全面领先,编程能力略低于 Claude Opus 4.6,但成本仅约一半。


🔥 关键亮点总结

亮点说明
✅ 首个原生 Computer Use 通用模型可像人类一样看屏幕、动鼠标、敲键盘
✅ 83% 知识工作超越人类覆盖 44 种职业,9 大行业
✅ 幻觉率大幅降低错误陈述 -33%,错误回复 -18%
✅ Agent 成本骤降 47%工具搜索机制革命性降低 Token 消耗
✅ 100万 Token 上下文可一次性处理完整项目文档
⚠️ 单 Token 价格上涨输入 +43%,但任务效率提升可能抵消成本

💬 业内评价

「GPT-5.4 在电脑操控能力与具备经济价值的任务上实现了巨大飞跃,我们看不到能力天花板。」
—— Noam Brown,OpenAI 高级研究科学家

「这是我们最近一段时间里见过 OpenAI 最出色的规划能力,代码审查也很强,而且成本大约只有 Opus 的一半。」
—— Dan Shipper,AI 评测博主


📅 发布历程

时间事件
2026-02-27Codex PR 首次出现 GPT-5.4 引用
2026-03-03OpenAI X 账号发布「5.4 sooner than you think」
2026-03-05GPT-5.4 正式发布,同步上线 ChatGPT/API/Codex
2026-03-06OpenRouter 上架,定价公开

早报由 AI 自动生成
数据来源:OpenAI 官方、OpenRouter、第三方评测机构
网站: https://ai-daily-blog.vercel.app

相关文章