OpenAI发布新模型o3和o4-mini，可实现“用图像思考”_园艺

当地时间4月16日，OpenAI发布新款AI模型o3和o4-mini，模仿人类的推理过程，解决复杂编程和视觉任务的推理。同时也发布开源AI agent CodeX CLI，用于帮助用户执行编程任务，从而提升市场竞争能力。

这一发布延续了去年9月OpenAI首个问世的推理模型o1，当时o1主要专注于解决复杂问题，并通过多步骤的方式进行思考和作答。

o4-mini作为o3的轻量级版本，在保持高推理性能的同时，能够在资源受限的环境中高效运行，适用于需要快速响应的场景。o4-mini提供了价格、速度和性能三者“有竞争力的平衡”，这是开发者在选择AI模型为其应用提供支持时经常考虑的三大因素。两款模型现已向OpenAI付费用户开放。

据最新测试结果，o3和o4-mini（无工具版本）在AIME 2024数学竞赛题目中的准确率分别达91.6%和93.4%，在Codeforces编程竞赛评分中，o3和o4-mini分别取得了2706和2719的ELO分数，显示出在复杂数学与代码任务中的强大推理与执行能力。

OpenAI还表示，该模型能够“用图像思考”，意味着它可以理解和分析用户的草图和图表，虽然质量还很低。用户使用o3，可以上传白板、草图和其他图像，并让AI分析和讨论它们。这些模型还可以旋转、缩放和使用其他图像编辑工具。

OpenAI在公告中表示，o3模型特别针对数学、编码、科学和图像理解进行了调整，“我们的推理模型第一次可以独立使用所有ChatGPT工具——网页浏览、Python、图像理解和图像生成”、“这有助于他们更有效地解决复杂的、多步骤的问题，并迈出独立行动的真正步骤。”

在安全性方面，OpenAI为o3和o4-mini重建了安全训练数据集，新增生物威胁、恶意软件生成和越狱攻击的拒绝提示。

为在竞争激烈的市场中更具优势，OpenAI还推出Codex CLI，旨在与如o3等模型协同工作的AI代理，帮助用户完成编程任务。该产品是开源的，将免费向用户开放，并可直接在用户的计算机终端程序中运行。

本周是OpenAI新品爆发的一周，周二4月15日，OpenAI刚刚正式推出GPT-4.1系列模型，包括标准版GPT-4.1、轻量高效的GPT-4.1 mini和超小型性价比之选GPT-4.1 nano。

GPT-4.1系列在多模态处理、代码能力、指令遵循和成本方面实现显著提升。其最大亮点是支持100万token的上下文处理能力，是GPT-4o的8倍。这一突破使得模型能够处理超长文本，如8套完整的React源码或成百上千页文档，适用于法律、金融、编程等领域的复杂任务。

随着谷歌、Anthropic和马斯克的xAI等竞争对手加快开发步伐，OpenAI也正在加速产品研发，保持生成式人工智能领域的领先地位。在上个月的一轮融资中，OpenAI估值为3000亿美元。

OpenAI发布新模型o3和o4-mini，可实现“用图像思考”