编程革命彻底爆发！刚刚，OpenAI最强智能体上线ChatGPT

新智元·2025-05-17

关注

OpenAI最强AI编程智能体真的来了！Codex震撼上线，由o3优化版codex-1加持，多任务并行，半小时干完数天软件工程任务。

编者按：本文来自微信公众号新智元（ID：AI_era），编辑：编辑部 YXH，创业邦经授权转载。

从今天起，AI编程正式开启新时代！

刚刚，Greg Brockman带队与OpenAI六人团队开启线上直播，震撼发布了一款云端AI编程智能体——Codex。

用奥特曼的话来说就是，一个人就能打造无数爆款应用的时代来了！

Codex由新模型codex-1加持，这是o3的一个特调版本，专为软件工程量身打造。

它不仅能在云端沙盒环境中安全地并行处理多项任务，而且通过与GitHub无缝集成，还可以直接调用你的代码库。

它不仅仅是一款工具，更是一位「10x工程师」，能够同时做到：

快速构建功能模块
深入解答代码库问题
精准修复代码漏洞
提交PR
自动执行测试验证

过去，这些任务或许耗费开发者数小时乃至数日，如今Codex最多在30分钟内高效完成。

点击ChatGPT侧边栏，输入提示后，直接点击「代码」分配任务，或「提问」咨询代码库相关问题

通过强化学习，Codex基于真实世界的编码任务和多样化环境训练，生成的代码不仅符合人类偏好，还能无缝融入标准工作流。

基准测试显示，codex-1在SWE-bench上拿下72.1%的高分，一举击败了Claude 3.7以及o3-high。

从今天起，Codex将向全球ChatGPT Pro、Enterprise和Team用户正式开放，Plus和Edu用户很快就能上手了。

可以说，AI编程智能体Codex的横空出世，或将重塑软件开发的底层逻辑，彻底点燃了编程革命的火种。

Codex多任务并行，AI编程超级加速器

早在2021年，OpenAI首次发布了CodeX模型，开启了「氛围编程」（vibe coding）的时代。

这种编程方式让开发者与AI协同工作，代码生产变得更加直观、高效。

几周前，OpenAI又推出了CodeX CLI，一款可在本地终端运行的智能体。

但这只是开始！

OpenAI今天推出全新的Codex智能体，再次将软件工程推向一个全新的高度。

接下来，一睹Codex编码的惊艳表现吧。

连接GitHub账户后，OpenAI研究员Thibault Sottiaux选择了一个开源仓库preparedness repo。

然后，他收到了三个任务：

第一个是提问：让代码智能体Codex解释代码库，说明整体结构
第二个是代码任务：要求在代码库中查找并修复某个地方bug
第三个任务是提问：遍历代码库，主动提出自己可以执行的任务建议

接下来演示中，Thibault向Codex下达多个任务，比如拼写和语法纠错、智能任务委派、多仓库适配。

在纠错方面，他故意在指令中加入拼写错误，Codex不仅理解了意图，还主动找出了代码库中的拼写和语法问题并修复，细致到令人惊叹。

当Thibault提出希望代码库「易维护、无bug」的目标时，Codex遍历代码库后，主动发现了可变默认值、不一致的超时设置等问题，并自行生成了修复任务。

这种「自我委派」能力，堪称智能体的巅峰表现。

值得注意的是，Codex智能体运行在OpenAI计算基础设施上，与强化学习共享同一套久经考验的系统。

每个任务都在独立的虚拟沙盒中运行，配备专属的文件系统、CPU、内存、和网络策略，确保了高效安全。

除了preparedness仓库，Codex还无缝处理了CodeX CLI库，展现其在不同项目中的泛化能力。

不论是开源项目，还是内部代码库，Codex都游刃有余。

Codex接收到了用户反馈的bug，因为特殊字符文件名导致了diff命令报错。

在解决过程中，它不仅能复现问题，还可以编写测试脚本、运行linter检查，并生成PR，整个过程仅需几分钟。

Thibault直言，「这原本可能花费我30分钟，甚至几个小时完成」。

此外，OpenAI研究员Katy Shi演示中强调，Codex的PR包含了详细的摘要，清晰说明了修改内容和引用的代码，测试结果一目了然。

一番演示下来，Greg表示，Codex让自己深刻感受到了AGI！

对齐人类偏好，实战4个开源库

OpenAI训练codex-1的一个主要目标，是确保其输出能高度符合人类的编码偏好与标准。

与OpenAI o3相比，codex-1能稳定生成更为简洁的代码修改补丁，可以直接供人工审查并集成到标准工作流程中。

为了体现Codex生成代码的简洁和高效，OpenAI提供了Codex和o3对比的4个开源库实战实例：

astropy

astropy是一个用于天文学的Python开源库。

第一个问题是astropy/astropy的仓库中，Modeling模块中的separability_matrix无法正确计算嵌套CompoundModels的可分离性。

可以看到，在修改前后的代码版本对比中，使用Codex修改生成了十分简洁的代码。

相比之下，o3修改的代码就显得有些冗长了，甚至还将一些「不必要」的注释加入了源代码中。

matplotlib

Matplotlib是一个用于创建静态、动画和交互式可视化的Python综合性库。

这次问题是修复Bug：在mlab._spectral_helper中的窗口校正（windows correction）不正确。

同样可以看到，Codex修改代码的过程更为简洁。

django

Django是基于Python的Web框架，这个问题是修复仅包含duration（时长）的表达式在SQLite和MySQL上无法正常工作。

Codex的修复过程依然优雅，并且相比o3，还首先补上了缺少的依赖调用。

expensify

expensify是一个围绕聊天的财务协作的开源软件。

OpenAI给出的问题是「dd [HOLD for payment 2024-10-14] [$250] LHN - 删除缓存后，成员聊天室名称在LHN中未更新」。

同样可以看到Codex的问题定位和修改更为精准和有效，o3甚至进行了一次无效的代码的修改。

OpenAI团队已经用上了

OpenAI的技术团队已经开始将Codex作为他们日常工具包的一部分。

OpenAI的工程师最常使用Codex来执行重复且范围明确的任务，如重构、重命名和编写测试，这些任务会打断他们的专注。

它同样适用于搭建新功能、连接组件、修复错误和起草文档。

团队正在围绕Codex建立新的习惯：处理值班问题、在一天开始时规划任务，以及执行后台工作以保持进度。

通过减少上下文切换和提醒被遗忘的待办事项，Codex帮助工程师更快地交付并专注于最重要的事情。

在正式发布前，OpenAI与少数外部测试者合作，评估Codex在不同代码库、开发流程与团队环境中的实际表现：

Cisco作为早期设计合作伙伴，探索Codex在加速工程团队构思落地方面的潜力，并通过评估真实用例向OpenAI提供反馈，助力模型优化。
Temporal借助Codex实现功能开发、问题调试、测试编写与执行的加速，并用于重构大型代码库。Codex还能在后台处理复杂任务，帮助工程师保持专注与高效迭代。
Superhuman利用Codex自动处理小型重复任务，如提高测试覆盖率和修复集成故障；还使产品经理能够无需工程介入（除代码审查外）完成轻量级代码更改，提升配对效率。
Kodiak在Codex支持下加速调试工具开发、测试覆盖和代码重构，推进其自动驾驶系统Kodiak Driver的研发。Codex也作为参考工具，帮助工程师理解陌生代码栈，提供相关上下文与历史更改。

根据目前的使用经验来看，OpenAI建议：可同时向多个代理分配边界清晰的任务，并尝试多种任务类型与提示方式，以更全面地发掘模型能力。