OpenAI 和 Anthropic 推出竞争对手的人工智能模型,企业竞争加剧

OpenAI 和 Anthropic 在周四几乎同时(相隔不到一小时)推出了各自产品线中的新旗舰 AI 模型,突显出领先开发者之间在企业软件和先进编码工具领域的竞争日益激烈。Anthropic 宣布了 Claude Opus 4.6,强调在长上下文推理和基于代理的工作流程方面的提升,而 OpenAI 紧接着发布了 GPT-5.3 Codex,这是一款针对代理编码和软件开发优化的模型。这两款模型的几乎同时发布,凸显了竞争对手们迭代速度之快,企业纷纷争取与大型企业客户签订长期合同,以确保未来的市场份额。



基准测试结果显示这两款模型在不同方面表现出不同的优势。根据两家公司公布的数据,Claude Opus 4.6 在法律和金融推理相关的任务中表现更强,而 GPT-5.3 Codex 在代理编码测试和效率指标上表现优异。这些发布正值投资者重新评估传统软件供应商前景之际,部分信息和专业服务公司的股价本周下跌,原因是担心 AI 原生平台可能侵蚀对成熟企业工具的需求。

Anthropic 表示,Claude Opus 4.6 在长上下文推理和专业任务方面取得了显著提升,拥有一百万令牌的上下文窗口,并在 MRCR v2(一项复杂信息检索基准测试)中获得了76%的得分。公司还指出,该模型在金融和法律任务上也优于早期版本,并引入了“代理团队”功能,允许多个 AI 代理同时协作进行编码和文档编写,从而提升效率和协作能力。

OpenAI 紧接着发布了 GPT-5.3 Codex,将其定位为一款专为代理编码和研究优化的模型。OpenAI 表示,Codex 在 Terminal-Bench 2.0 代理编码基准测试中得分为77.3%,而 Claude Opus 4.6 得分为65.4%,且完成任务的速度更快,使用的令牌更少。OpenAI 还提到,早期版本的 Codex 曾被内部用于调试训练过程和管理模型部署,这是模型首次在加速自身开发中发挥直接作用的例子。

综合来看,这些结果表明两款模型都没有明显的整体领先优势,性能的优劣取决于企业更重视专业推理能力还是自主软件开发能力。谷歌预计将在未来几个月内推出其 Gemini 模型的更新,而其他 AI 开发商,包括 DeepSeek,也在积极准备新版本,以加快行业的竞争节奏。

然而,仅凭基准测试结果难以决定市场的最终领导地位,因为更广泛的采用和企业部署正日益成为影响竞争格局的关键因素。随着竞争持续加剧,时间将证明代理基础的工作流程是否会成为经济活动的核心组成部分。OpenAI 和 Anthropic 无疑都在押注这一点,期待未来在这一领域占据领导地位。

查看原文
此页面可能包含第三方内容,仅供参考(非陈述/保证),不应被视为 Gate 认可其观点表述,也不得被视为财务或专业建议。详见声明
  • 赞赏
  • 评论
  • 转发
  • 分享
评论
0/400
暂无评论
交易,随时随地
qrCode
扫码下载 Gate App
社群列表
简体中文
  • 简体中文
  • English
  • Tiếng Việt
  • 繁體中文
  • Español
  • Русский
  • Français (Afrique)
  • Português (Portugal)
  • Bahasa Indonesia
  • 日本語
  • بالعربية
  • Українська
  • Português (Brasil)