AI Daily

TL;DR

OpenAI 于 3月5日正式发布 GPT-5.4，这是其首款具备原生计算机操控能力的通用模型。综合评分 75.1/100（7.5/10），在 GDPval 知识工作基准上 83% 任务超越人类专家，OSWorld 电脑操控测试 75% 首次超过人类基线（72.4%）。

🚀 GPT-5.4 正式发布

发布时间: 2026-03-05
上线渠道: ChatGPT、API、Codex 同步开放

GPT-5.4 是 OpenAI 首次将 推理（Reasoning）、编程（Coding）、原生计算机交互（Computer Use）、深度网页搜索、百万级 Token 上下文 整合至单一模型的「大一统」成果。

📊 综合评分与基准测试

综合评分

评分项	得分
综合评分	75.1/100
星级评分	7.5/10

核心基准测试

基准测试	GPT-5.4	GPT-5.2	对比
GDPval（44种职业知识工作）	83.0%	70.9%	+12.1%
OSWorld-Verified（桌面操控）	75.0%	47.3%	+27.7%
SWE-Bench Pro（软件工程）	57.7%	55.6%	+2.1%
BrowseComp（持续网页搜索）	82.7%	65.8%	+16.9%
GPQA Diamond（博士级科学）	92.8%	-	-
投行级表格建模	87.3%	68.4%	+18.9%
MMMU-Pro（视觉推理）	81.2%	79.5%	+1.7%

关键里程碑: OSWorld 测试中 75% 成功率首次超越人类基线（72.4%），标志着 AI 在桌面环境操作能力上正式超过人类水平。

💡 核心能力解析

1. 原生计算机操控能力

首款支持原生 Computer Use 的通用模型
可通过屏幕截图 + 键盘/鼠标指令直接操控电脑
WebArena-Verified 浏览器操作成功率 67.3%
Online-Mind2Web 测试成功率 92.8%

2. 幻觉率显著降低

单个事实陈述错误概率降低 33%
整段回答包含错误的概率降低 18%
OpenAI 称其为「迄今事实准确性最高的模型」

3. 工具搜索机制（Tool Search）

改变传统「一次性加载所有工具定义」的模式
按需查询工具详情，支持缓存复用
MCP 工作流 Token 消耗降低 47%
准确率保持不变，成本大幅下降

4. 上下文窗口

标准支持 100万 Token 上下文
最大输出 128K Token
最佳表现区间：128K-272K（超过272K按双倍配额计费）

💰 定价信息

API 定价（每百万 Token）

版本	Input	Cached Input	Output
GPT-5.4	$2.50	$0.25	$15.00
GPT-5.4 Pro	$30.00	-	$180.00
GPT-5.2（对比）	$1.75	$0.175	$14.00

ChatGPT 订阅

Plus/Team/Pro 用户: 可使用 GPT-5.4 Thinking（替代 GPT-5.2 Thinking）
GPT-5.2 退役时间: 2026年6月5日
Pro 用户: 额外获得 GPT-5.4 Pro 访问权限

成本优化: 虽然单 Token 价格上涨 43%，但由于 Token 效率提升，多数任务总成本可能不增反降。

🏆 与竞品对比

能力维度	GPT-5.4	Claude Opus 4.6	Gemini 3.1 Pro
知识工作 (GDPval)	83%	-	-
桌面操控 (OSWorld)	75%	-	-
编程 (SWE-Bench Pro)	57.7%	74.5%	-
API 成本（相对）	基准	~2x	-

评价: GPT-5.4 在通用能力和 Agent 任务上全面领先，编程能力略低于 Claude Opus 4.6，但成本仅约一半。

🔥 关键亮点总结

亮点	说明
✅ 首个原生 Computer Use 通用模型	可像人类一样看屏幕、动鼠标、敲键盘
✅ 83% 知识工作超越人类	覆盖 44 种职业，9 大行业
✅ 幻觉率大幅降低	错误陈述 -33%，错误回复 -18%
✅ Agent 成本骤降 47%	工具搜索机制革命性降低 Token 消耗
✅ 100万 Token 上下文	可一次性处理完整项目文档
⚠️ 单 Token 价格上涨	输入 +43%，但任务效率提升可能抵消成本

💬 业内评价

「GPT-5.4 在电脑操控能力与具备经济价值的任务上实现了巨大飞跃，我们看不到能力天花板。」
—— Noam Brown，OpenAI 高级研究科学家

「这是我们最近一段时间里见过 OpenAI 最出色的规划能力，代码审查也很强，而且成本大约只有 Opus 的一半。」
—— Dan Shipper，AI 评测博主

📅 发布历程

时间	事件
2026-02-27	Codex PR 首次出现 GPT-5.4 引用
2026-03-03	OpenAI X 账号发布「5.4 sooner than you think」
2026-03-05	GPT-5.4 正式发布，同步上线 ChatGPT/API/Codex
2026-03-06	OpenRouter 上架，定价公开

早报由 AI 自动生成
数据来源：OpenAI 官方、OpenRouter、第三方评测机构
网站: https://ai-daily-blog.vercel.app

AI 技术日报 | GPT-5.4 正式发布 (2026-03-06)