AI日报
GPT-5.4
OpenAI
大模型
评测
AI 技术日报 | GPT-5.4 正式发布 (2026-03-06)
2026年3月6日 01:308 分钟加载中作者: Lhy099
TL;DR
OpenAI 于 3月5日 正式发布 GPT-5.4,这是其首款具备原生计算机操控能力的通用模型。综合评分 75.1/100(7.5/10),在 GDPval 知识工作基准上 83% 任务超越人类专家,OSWorld 电脑操控测试 75% 首次超过人类基线(72.4%)。
🚀 GPT-5.4 正式发布
发布时间: 2026-03-05
上线渠道: ChatGPT、API、Codex 同步开放
GPT-5.4 是 OpenAI 首次将 推理(Reasoning)、编程(Coding)、原生计算机交互(Computer Use)、深度网页搜索、百万级 Token 上下文 整合至单一模型的「大一统」成果。
📊 综合评分与基准测试
综合评分
| 评分项 | 得分 |
|---|---|
| 综合评分 | 75.1/100 |
| 星级评分 | 7.5/10 |
核心基准测试
| 基准测试 | GPT-5.4 | GPT-5.2 | 对比 |
|---|---|---|---|
| GDPval(44种职业知识工作) | 83.0% | 70.9% | +12.1% |
| OSWorld-Verified(桌面操控) | 75.0% | 47.3% | +27.7% |
| SWE-Bench Pro(软件工程) | 57.7% | 55.6% | +2.1% |
| BrowseComp(持续网页搜索) | 82.7% | 65.8% | +16.9% |
| GPQA Diamond(博士级科学) | 92.8% | - | - |
| 投行级表格建模 | 87.3% | 68.4% | +18.9% |
| MMMU-Pro(视觉推理) | 81.2% | 79.5% | +1.7% |
关键里程碑: OSWorld 测试中 75% 成功率首次超越人类基线(72.4%),标志着 AI 在桌面环境操作能力上正式超过人类水平。
💡 核心能力解析
1. 原生计算机操控能力
- 首款支持原生 Computer Use 的通用模型
- 可通过屏幕截图 + 键盘/鼠标指令直接操控电脑
- WebArena-Verified 浏览器操作成功率 67.3%
- Online-Mind2Web 测试成功率 92.8%
2. 幻觉率显著降低
- 单个事实陈述错误概率降低 33%
- 整段回答包含错误的概率降低 18%
- OpenAI 称其为「迄今事实准确性最高的模型」
3. 工具搜索机制(Tool Search)
- 改变传统「一次性加载所有工具定义」的模式
- 按需查询工具详情,支持缓存复用
- MCP 工作流 Token 消耗降低 47%
- 准确率保持不变,成本大幅下降
4. 上下文窗口
- 标准支持 100万 Token 上下文
- 最大输出 128K Token
- 最佳表现区间:128K-272K(超过272K按双倍配额计费)
💰 定价信息
API 定价(每百万 Token)
| 版本 | Input | Cached Input | Output |
|---|---|---|---|
| GPT-5.4 | $2.50 | $0.25 | $15.00 |
| GPT-5.4 Pro | $30.00 | - | $180.00 |
| GPT-5.2(对比) | $1.75 | $0.175 | $14.00 |
ChatGPT 订阅
- Plus/Team/Pro 用户: 可使用 GPT-5.4 Thinking(替代 GPT-5.2 Thinking)
- GPT-5.2 退役时间: 2026年6月5日
- Pro 用户: 额外获得 GPT-5.4 Pro 访问权限
成本优化: 虽然单 Token 价格上涨 43%,但由于 Token 效率提升,多数任务总成本可能不增反降。
🏆 与竞品对比
| 能力维度 | GPT-5.4 | Claude Opus 4.6 | Gemini 3.1 Pro |
|---|---|---|---|
| 知识工作 (GDPval) | 83% | - | - |
| 桌面操控 (OSWorld) | 75% | - | - |
| 编程 (SWE-Bench Pro) | 57.7% | 74.5% | - |
| API 成本(相对) | 基准 | ~2x | - |
评价: GPT-5.4 在通用能力和 Agent 任务上全面领先,编程能力略低于 Claude Opus 4.6,但成本仅约一半。
🔥 关键亮点总结
| 亮点 | 说明 |
|---|---|
| ✅ 首个原生 Computer Use 通用模型 | 可像人类一样看屏幕、动鼠标、敲键盘 |
| ✅ 83% 知识工作超越人类 | 覆盖 44 种职业,9 大行业 |
| ✅ 幻觉率大幅降低 | 错误陈述 -33%,错误回复 -18% |
| ✅ Agent 成本骤降 47% | 工具搜索机制革命性降低 Token 消耗 |
| ✅ 100万 Token 上下文 | 可一次性处理完整项目文档 |
| ⚠️ 单 Token 价格上涨 | 输入 +43%,但任务效率提升可能抵消成本 |
💬 业内评价
「GPT-5.4 在电脑操控能力与具备经济价值的任务上实现了巨大飞跃,我们看不到能力天花板。」
—— Noam Brown,OpenAI 高级研究科学家
「这是我们最近一段时间里见过 OpenAI 最出色的规划能力,代码审查也很强,而且成本大约只有 Opus 的一半。」
—— Dan Shipper,AI 评测博主
📅 发布历程
| 时间 | 事件 |
|---|---|
| 2026-02-27 | Codex PR 首次出现 GPT-5.4 引用 |
| 2026-03-03 | OpenAI X 账号发布「5.4 sooner than you think」 |
| 2026-03-05 | GPT-5.4 正式发布,同步上线 ChatGPT/API/Codex |
| 2026-03-06 | OpenRouter 上架,定价公开 |
早报由 AI 自动生成
数据来源:OpenAI 官方、OpenRouter、第三方评测机构
网站: https://ai-daily-blog.vercel.app