
大模型的竞争丝毫没有冷却的迹象,OpenAI日前又甩出一个“王炸”——GPT-5.4,这是其首次将前沿推理、编码与智能体能力整合于单一模型,官方认为它是“目前面向专业工作推出的能力最强、效率最高的前沿模型之一”,标志着AI技术从对话交互向自主智能体执行任务迈出关键一步。而这一趋势从这两天OpenClaw的全网爆火也可见一斑。OpenClaw不仅是对话机器人,更是一个能自主判断、决策、执行任务的AI生命体。截至目前,国内互联网大厂已纷纷跟进,腾讯电脑管家昨天上线AI助手工具QClaw官网,火山引擎则上线ArkClaw——开箱即用的云上SaaS版OpenClaw。
当智能体开始在人们入睡后帮忙处理各项事物,今年AI会给世界带来多大颠覆,值得期待。
AI比人类更会操作电脑
GPT-5.4最具突破性的创新在于其原生计算机使用能力。此前,无论是ChatGPT Atlas还是AutoGPT类智能体,均采用外挂插件或独立智能体模式,并非模型原生功能。

OSWorld-Verified是当前最权威的“计算机使用”评测基准,它测试AI代理如何通过截图观察、鼠标键盘操作来完成任务,包括文件管理、网页浏览、办公软件、多应用协作等场景的369个真实世界任务。GPT-5.4在该评测中取得75%的任务成功率,首次超过72.4%的人类平均水平。
在另一款评估工具GDPval上,GPT-5.4的表现同样亮眼。GDPval是OpenAI于去年9月推出的评估工具,其独特之处在于评测“明确任务下的交付质量”,而非简单的问答能力。评分采用同职业专家盲评对比——将“模型交付结果”与“人类专家交付结果”并列盲审,由同职业专家评判优劣。结果显示,GPT-5.4在83%的任务中表现等于或优于人类专家,尤其在投行级电子表格建模、演示文稿生成和法律文书撰写等任务上,领先优势更为明显。
智能体时代加速到来
“SeeDance2.0、OpenClaw、GPT-5.4……仿佛又回到了GPT-4刚发布时的那种感觉,每天都有新变化,应接不暇。”上海人工智能研究院技术中心主任林圆圆的一句玩笑话,道出了如今AI赛道上“你追我赶”的现状,每支队伍都铆足了劲,一次更新就能引来业内格局变动。
行业的范式转移已显现。今年初举行的清华大学AGI-Next峰会明确提出,大模型竞争已从“对话”阶段转向“智能体”阶段,执行能力在下半场竞争中至关重要。2月,OpenAI首席执行官山姆·奥特曼宣布OpenClaw创始人彼得·斯坦伯格加入OpenAI,致力于推动下一代个人智能体的研发。
外号“小龙虾”的OpenClaw是当下最火爆的AI项目。3月1日,OpenClaw以24.5万颗星登顶GitHub榜首,超越长期占据榜首的Linux和React。奥特曼评价道:“彼得是一位真正的天才,他对未来高度智能的智能体如何协作以服务人类有着许多令人惊叹的构想。”
这一人事变动对GPT-5.4的发布产生直接影响。有开发者观察到,GPT-5.4的多项核心功能——原生电脑操控、100万token上下文、工具搜索带来的47%token成本节约,恰好踩中了OpenClaw的技术痛点。
大模型进入差异化竞争
GPT-5.4固然强大,但强大亦有边界。综合来看,它在专业工作场景,特别是金融分析、办公自动化、知识工作中展现了显著的能力提升,但在编程能力上落后于Claude Opus 4.6,在科学推理上落后于Gemini 3.1 Pro,在医疗健康领域甚至出现小幅退步。另外,尽管GPT-5.4在OSWorld-Verified测试中确实超越了人类基准,但这只是在特定的369个任务上,且测试环境是可控的虚拟机。在更复杂、更开放的真实场景中,AI与人类的表现差距可能截然不同。
如果说3年前的大模型还在同一条跑道上竞争,那么,如今已很难用同一把标尺来衡量“各怀绝技”的大模型了。正如一位业内人士所言:“不再有‘最好的AI’——想操控电脑、做PPT、跑知识工作?选GPT-5.4;想写代码、跑智能体、做复杂开发?选Claude Opus 4.6;想要最强推理、图片视频理解、最大上下文、最低价格?选Gemini 3.1 Pro。”
价格肯定是不得不考虑的因素。GPT-5.4的输入价格达到30美元/百万tokens,是Claude Opus 4.6的6倍、Gemini 3.1 Pro的15倍、MiniMax M2.5的100倍,相当于对GPT-5.4 Pro说一句“嗨”,模型思考5分钟就可能花掉80美元。
林圆圆认为,大模型的竞争最终将归于算力。人工智能大模型的快速发展对高性能算力提出空前需求,算力预计还有成百上千倍的增长空间。正在举行的全国两会上提出,今年国内将在包括电网、算力网、新型通信网等在内的“六张网”等重点领域投入超过7万亿元,这一布局意义重大。
拉伯配资提示:文章来自网络,不代表本站观点。