Claude Code + Hermes MCP 消息桥接实战:任务完成自动通知手机
Claude Code 跑了 20 分钟你不在电脑前,怎么知道它完成了?三种方案对比:Hooks 轻量脚本、Channels 官方双向、Hermes MCP 反向桥接。本文给完整配置代码,复制即用。
OpenAI Codex 是「编程代理」(Coding Agent),不是会写代码的 ChatGPT。本文从新手角度讲清 Codex 是什么、和 ChatGPT 的本质区别、4 层概念递进、和 Cursor / GitHub Copilot 怎么分工、新手怎么开始用。
⏱️ 预计阅读 18 分钟 | 🎯 目标:把 OpenAI Codex 这个「编程代理」(Coding Agent)从概念到使用全部讲清,让新手 5 分钟知道它是什么、和 ChatGPT / Cursor / Copilot 的区别、自己该不该用。
你听到周围人都在聊「OpenAI Codex」,但搜「Codex 是什么」时看到的解释要么过时(讲的是 2021 年那个老 Codex)、要么太抽象(「自主智能体」「Agentic AI」一堆术语)。这篇用最直白的话讲清 2026 年的 OpenAI Codex 到底是什么。
如果你只想知道「OpenAI Codex 到底是啥」,下面这张表就是答案:
| 问题 | 一句话答案 |
|---|---|
| Codex 是什么? | OpenAI 出的「编程代理」(Coding Agent),能自主完成整段工程任务的 AI 系统 |
| 和 ChatGPT 有啥区别? | ChatGPT 是聊天框给建议;Codex 自己进项目改文件、跑测试、产 PR |
| 用 Codex 要付费吗? | 短期免费档可试用,稳定用要 ChatGPT 付费会员 |
| 新手怎么开始? | 装 Codex 桌面应用 → 选个小仓库 → 让它修一个真 bug 体感 |
| 安全吗? | 默认沙箱模式相对安全,配合 git commit 检查点更稳 |
| 和 Cursor / Copilot 冲突吗? | 不冲突。Cursor / Copilot 在编辑器里实时补全;Codex 委托整段任务 |
最常见的新手误区:以为 Codex 就是「ChatGPT 的写代码模式」。完全错——它是 ChatGPT 内的另一种工作范式(异步、长时执行、自主完成任务),不是聊天的延伸。
下面把这些问题都展开讲。
这一节解决新手最大的认知混乱,已经知道可以跳过看 § 二。
新手搜「OpenAI Codex 是什么」时会看到三种完全不同的解释,理由是 Codex 这个名字 OpenAI 用了三次:
2021 年 OpenAI 推出过一个「Codex」模型,是基于 GPT-3 微调的代码补全模型,给 GitHub Copilot 早期版本提供能力。这个 Codex 在 2023 年被 OpenAI 退役,已经不能用了。
网上很多过时教程讲的是这个老 Codex——看到「Codex 通过 API 调用补全代码」「Codex 是 GPT-3 的代码版」这类描述就是过时内容。
2023-2024 年「Codex」这个名字暂时退出舞台。OpenAI 把代码相关能力直接合并到 GPT-4 / GPT-4o 等通用模型里,没有单独的 Codex 产品。
2025 年 4 月,OpenAI 重启了「Codex」品牌但完全换了个内核:从「代码补全模型」升级成「编程代理」(Coding Agent)。这是个架构上完全不同的产品——同名不同物。这个时间点不是模糊记忆,是有据可查的:中立的第三方资料(如 维基百科「Codex (AI agent)」词条)也明确记载新 Codex 于 2025 年 4 月以 Codex CLI 形式发布,和 2021 年那个老 Codex 是两个完全不同的东西。
本文以及绝大多数 2025-2026 年的「Codex」相关文章讲的都是这个新 Codex。如果你看到的解释和本文不一样,先看一眼日期——2024 年之前的内容多半已过时。
🔥 翔宇判断
「同名不同物」是新手最容易栽的坑。看 Codex 教程时先看发布日期——2025 年之前的多半在讲老 Codex,2025-2026 年的才是新 Codex。很多新手第一次找资料就栽在这里——按搜索引擎排序点开一篇 2022 年的「Codex API 教程」,照着去 OpenAI 官网却怎么也对不上,折腾半天才发现根本不是同一个产品。
OpenAI Codex 是一个能读懂整个代码仓库、自主改代码、跑测试、修 bug、最后产出 PR(Pull Request)的 AI 系统。
它的工作模式是:你描述一个任务,它去执行——不是「你问它答」式聊天。
OpenAI 官方介绍页 的定位是:
"Codex accelerates real engineering work, from planning and building features to refactors, reviews, and releases."(Codex 加速真实的工程工作——从规划和构建功能到重构、评审、发布。)
让你立刻建立直觉,对比同一个任务在 ChatGPT 和 Codex 里的不同体验。
任务:你的网站用户在 Safari 浏览器上点登录按钮没反应,Chrome 正常。修一下。
你:「我的 Next.js 站点在 Safari 上登录按钮没反应,Chrome 正常。怎么排查?」
ChatGPT:「你可以检查这几个方面:1. Safari 的 third-party
cookies 设置;2. CORS 跨域配置;3. ITP(智能跟踪防护)影响;
4. localStorage / sessionStorage 在 Safari 下的差异...」
你:(自己打开 IDE)「好,我先检查 ITP...」
↓ 自己读代码、自己 debug、自己改代码
↓ 自己跑测试、自己 commit、自己推送
(30-60 分钟后)问题修好
ChatGPT 给你排查方向,但所有动手的事还是你自己干。
你:「修复 Safari 17.4+ 上点登录按钮没反应的 bug。
@src/lib/auth.ts @src/app/login/page.tsx
不要改 signIn() 函数签名,不要引入新依赖。
完成标准:pnpm test:auth 全过 + Safari 真机能登录。」
Codex:(自己开始干)
↓ 读 auth.ts 和 login/page.tsx
↓ 扫描相关文件,找到使用 cookies 的位置
↓ 定位是 SameSite=None 但缺 Secure 标志的问题
↓ 改了 auth.ts 第 42 行:补上 Secure 标志
↓ 跑 pnpm test:auth → 全过
↓ 创建分支 fix/safari-login,commit + push + 开 PR
(10 分钟后)
Codex:「我改了 auth.ts:42(添加 cookie Secure 标志),
pnpm test:auth 17/17 通过,PR 链接在这里:[github.com/...]」
你:(review PR → 满意 → 合并)
差别一目了然——ChatGPT 是顾问,给你方向你自己干;Codex 是会动手的实习生,你交任务它自己干完。
OpenAI 官方介绍页 用的描述是:
"Codex is OpenAI's cloud-based software engineering agent that can write and edit code, run tests, fix bugs, and propose pull requests. Each task is executed in its own sandboxed environment."(Codex 是 OpenAI 的云端软件工程代理,能写代码、改代码、跑测试、修 bug、产出 PR。每个任务在独立沙箱环境里执行。)
中文社区把 「Coding Agent」 通常翻译为「编程代理」(也有人译「编程智能体」「软件工程代理」「AI 协作者」)——本文统一用「编程代理」。
很多中文文章对 Codex 的介绍停在 2025 年的「云端软件工程代理」那一句,但 2026 年 OpenAI 对 Codex 的官方定位已经又往前走了一步。OpenAI 官方开发者文档 现在用的一句话 slogan 是:
"One agent for everywhere you code."(一个代理,覆盖你写代码的所有地方。)
意思是同一个 Codex 引擎贯穿你写代码的每一处——网页、桌面应用、命令行、编辑器扩展,都是同一个代理在背后干活(这一点本文 § 三、§ 五会展开)。
更值得新手注意的是能力边界的扩张:随着 OpenAI 在 2026 年初推出新一代 Codex 专用模型(具体型号迭代很快,以 OpenAI 官方模型说明 为准,本文刻意不写死版本号),OpenAI 官方对它的描述从「一个能写代码、审代码的代理」升级成「一个几乎能做开发者和专业人士在电脑上能做的任何事的代理」——不只写代码,还能调试、部署、做监控、写产品需求文档(PRD)、起草幻灯片、分析表格数据。
🔥 翔宇判断
新手不需要追每一个版本号——追版本号是工程师圈的事,对「Codex 是什么」这个认知没有帮助。你只要抓住两个不会过时的本质:① 它是「编程代理」,干的是「自己进项目把整段任务做完」;② OpenAI 在持续把它从「写代码」往「在电脑上替你完成工作」推。具体跑哪个模型、价格多少,永远以官方页面当下显示的为准——这篇文章故意不写死,就是不想几个月后误导你。
💡 通俗讲
ChatGPT 像是「会写代码的咨询顾问」——你问它什么它答什么,但它不动手。
Codex 像是「会写代码的远程实习生」——你给他一个任务他自己进项目干,干完把工作结果交给你审。
两个都是「帮你」,但帮的程度完全不一样。一个给你「该怎么做」的方案,一个直接产出「已经做好了」的成果。

新手最常问的:「Codex 不是在 ChatGPT 里吗?它和 ChatGPT 不就是一个东西吗?」
不是。它们在同一个会员账号下,但工作模式完全不同。下面这张表是关键。
| 维度 | ChatGPT(聊天 AI) | OpenAI Codex(编程代理) |
|---|---|---|
| 角色定位 | 实时聊天问答 | 异步任务执行 |
| 运行位置 | 在你的聊天窗口里 | 在 OpenAI 的隔离沙箱(cloud sandbox)里 |
| 交互模式 | 一问一答、实时对话 | 你交任务、AI 自己干、跑完报告 |
| 典型时长 | 几秒到几十秒 | 1-30 分钟(甚至更长) |
| 产出形态 | 聊天框里的文字 / 代码片段 | git diff / Pull Request / 测试结果日志 |
| 能力范围 | 只能输出文本 | 能读你的整个代码仓库、改多文件、跑命令、调试错误 |
| 并行能力 | 一对一对话 | 同时委托多个任务跑(可以 5 个 Codex 并行) |
这张表里「典型时长 1-30 分钟」是新手最常接触的体感区间,但 2026 年 Codex 的异步能力其实已经往更长的方向延伸了。OpenAI 官方介绍 提到一个新特征:Codex 现在能给自己排未来要做的活、自动「醒来」继续推进一个长期任务,时间跨度甚至可以横跨好几天乃至几周。
"Codex can now schedule future work for itself and wake up automatically to continue on a long-term task, potentially across days or weeks."(Codex 现在能为自己安排未来的工作、自动唤醒以继续一个长期任务,时间跨度甚至可达数天或数周。)
新手不用一上来就用这种长任务,但理解这个方向很重要——它再次印证「Codex 和 ChatGPT 是两类东西」:ChatGPT 是你不发消息它就停在那儿等你,Codex 则可以是一个「自己有日程、自己往前推」的存在。这正是很多停在 2025 年信息的中文教程没讲到的一点。

很多人困惑「为什么 Codex 在 ChatGPT 里」?因为 OpenAI 把 Codex 集成到 ChatGPT 付费会员账号体系里——但它不是 ChatGPT 的「写代码模式」,而是同账号下另一个独立产品。
具体而言:
两个标签共享同一个会员订阅,但是完全不同的产品形态。
Codex 实际有 4 个入口(详见 入口选择专文):
它们底下是同一个 AI 引擎,只是给你看的界面不同。
💡 通俗讲
想象你订阅了一个流媒体平台(比如 Netflix),平台里既有「电影」频道也有「纪录片」频道——同一个账号付费,但内容类型完全不同。
ChatGPT + Codex 就是这种关系——同一个 OpenAI 会员,「ChatGPT」频道是聊天 AI,「Codex」频道是编程代理。新手第一次进 ChatGPT 网页就能看到两个标签。
要真正理解 Codex 是什么,需要把它放在 AI 编程工具的整个谱系里看。下面四层递进让你看清 Codex 的位置。
最宽泛的概念,包括所有「让计算机模拟智能行为」的技术——视觉识别、语音、推理、生成等。
ChatGPT 是 AI 的一个具体应用——基于「大语言模型」(Large Language Model, LLM)的对话产品。
业内对 Agent(智能体)的常见定义是:
"An AI Agent is a system where an LLM uses tools in a loop to achieve a goal."(AI Agent 是一个系统:大语言模型在循环里使用工具达成目标。)
关键四特征:
ChatGPT 不是 Agent(它只回答你的问题,不主动执行)。Cursor 不完全是 Agent(它在编辑器里给你建议)。Codex 是 Agent——你给它目标,它自己用工具循环跑直到完成。
「编程代理」就是「专门为软件开发场景特化的 Agent」。它的工具集和循环都为「写代码」量身定做:
| Agent 通用能力 | Coding Agent 特化 |
|---|---|
| 用工具 | 读项目文件、改代码、跑测试、提交 git、推送 PR |
| 循环 | 改代码 → 跑测试 → 看测试结果 → 继续改直到测试通过 |
| 目标 | 「修这个 bug」「加这个功能」「重构这个模块」 |
| 自我验证 | 测试 = 客观验证标准——通过就完成,不通过继续改 |
这里有一个关键认知:编程代理之所以能可靠工作,是因为软件开发自带客观验证(测试 / 编译器 / linter)——AI 不需要人评估,就能知道自己做得对不对。这是其他领域很难做到的。
OpenAI Codex 就是 OpenAI 这家公司推出的「编程代理」具体产品。市场上还有其他编程代理:
| 产品 | 公司 | 特点 |
|---|---|---|
| OpenAI Codex | OpenAI | 云端 + CLI + App + IDE 全形态、ChatGPT 会员集成 |
| Claude Code | Anthropic | 本地优先、自动记忆系统、长上下文(1M token) |
| Devin | Cognition | 完全自主、目标导向、付费订阅独立 |
| Aider | 开源 | 命令行 + git 工作流、社区驱动 |
| Gemini CLI | 与 Gemini 模型集成、跨工具配置 |
它们都是「编程代理」这个大类的具体产品,架构哲学不同但目标相同——让 AI 自主完成整段工程任务。
flowchart TD
A[第 1 层 · AI<br/>人工智能 总称]
A --> B[第 2 层 · Agent<br/>能自主用工具的 AI 系统]
B --> C[第 3 层 · Coding Agent<br/>软件开发特化的 Agent]
C --> D1[OpenAI Codex<br/>OpenAI 出品]
C --> D2[Claude Code<br/>Anthropic 出品]
C --> D3[Devin<br/>Cognition 出品]
C --> D4[其他编程代理]
classDef base fill:#fef3c7,color:#92400e,stroke:#b45309,stroke-width:2px
classDef agent fill:#dbeafe,color:#1e40af,stroke:#2563eb,stroke-width:2px
classDef coding fill:#dcfce7,color:#166534,stroke:#16a34a,stroke-width:2px
classDef product fill:#1f6feb,color:#fff,stroke:#0d3a8a,stroke-width:2px
class A base
class B agent
class C coding
class D1,D2,D3,D4 product
理解了这 4 层你就理解了 Codex 在整个 AI 编程谱系里的位置——它不是孤立产品,是一个新兴产品类别(编程代理)的具体实现之一。

新手第一次接触 AI 编程工具会困惑——这么多工具到底用哪个?下面这张分工图把每个工具的「最佳工作场景」讲清。
[实时补全] ← → [整段任务委托]
↑ ↑
GitHub Copilot OpenAI Codex
(拼写检查器) (远程实习生)
↓ ↓
Cursor Claude Code
(AI 原生 IDE) (本地编程代理)
横轴:实时反馈 vs 异步执行——Copilot/Cursor 实时;Codex/Claude Code 偏异步长任务。
纵轴:编辑器内交互 vs 独立工作——Copilot/Cursor 在编辑器里;Codex/Claude Code 独立运行。
| 你是谁 | 推荐主力 | 原因 |
|---|---|---|
| 完全新手 / 不懂编程 | Codex 桌面应用 | 图形界面、点按钮、不需要 IDE 知识 |
| 熟悉编辑器 / 想要实时辅助 | Cursor + Codex 双轨 | Cursor 实时补全 + Codex 委托整段任务 |
| 每天用 GitHub / 公司有 Copilot | Copilot + Codex 双轨 | Copilot 编辑器内补全 + Codex 接 PR review |
| 重度终端用户 / 工程师 | Codex CLI + Claude Code 双轨 | 两个编程代理互补,覆盖所有任务模式 |
重点:绝大多数重度开发者不会只选一个。社区的真实使用模式是「分工协作」——不同工具在不同场景下用,互相补位。
🔥 翔宇判断
「该选哪个 AI 编程工具」是新手最容易钻的牛角尖。正确思路是「先选一个跑两周建立感觉、再加第二个」,不要试图一次买齐 4 个。我自己用了一年下来主力是 Cursor + Codex(CLI + App)+ Claude Code 的三件套——但这是用了一年才稳定下来的组合。新手第一周先装 Codex 桌面应用就够了,跑顺再考虑加别的。
一个被反复印证的经验是,大多数高效开发者只用 2 个 AI 编程工具——一个负责实时补全(Cursor 或 Copilot),一个负责委托整段任务(Codex 或 Claude Code)。
工具多了的副作用:
新手永远先装一个跑顺再加第二个。这个建议比「装哪个」更重要。
具体看 Codex 能做什么。下面 8 个场景是 OpenAI 官方公开的高频用例 加上社区共识。
最常见也最有价值的场景。把错误信息、影响范围、复现步骤交给 Codex,它定位代码、改、跑测试、产 PR。
典型时长:3-15 分钟。
接手新项目时让 Codex 解释架构:「这个仓库的请求流向是什么?哪些模块负责什么?踩坑前我要先读哪些文件?」
OpenAI 官方推荐这个场景 是新手用 Codex 最容易看到价值的入口。
「为 src/lib/auth.ts 写完整单元测试,覆盖所有边界情况,用 vitest 框架」。Codex 写完测试 + 跑 + 改到全过。
「把这个项目里所有 class 组件改成 functional component + hooks」。Codex 跨 50-100 个文件并行改,最后产一个 PR。
把设计图(screenshot / Figma 截图)拖进 Codex,告诉它「按这个设计实现登录页」,它产出能跑的代码。
在 GitHub PR 评论里 @codex review,Codex 后台审完留评论。这是 Codex 在团队工作流里最高 ROI 的应用之一。
「把 React 17 升到 18、修所有 breaking change」「把 Next.js 12 迁移到 14 App Router」。这种长任务(30 分钟+)正适合 Codex 异步执行。
OpenAI 推动的「Codex 用于工作」场景:
OpenAI 官方公开的 10 个工作场景 显示 Codex 已经超越「写代码」工具的定位,向「结构化任务执行」方向扩展。
网上讲「Codex 是什么」的文章太多,口径还不一致——有人说它是「写代码的 AI 助手」,有人说它是「自动补全工具」,有人干脆把它和老 Codex 混为一谈。新手想绕开这些杂音,最稳的办法是直接看 OpenAI 官方怎么定义它能干什么,再拿官方清单当尺子去量别人的说法。
OpenAI 官方开发者文档 明确把 Codex 定义为「OpenAI 面向软件开发的编程代理」,并列出它能帮你做的五件核心事:
| # | 官方能力 | 通俗解释 |
|---|---|---|
| 1 | 写代码(Write code) | 你描述想做什么,Codex 生成符合你意图、贴合你项目结构和约定的代码 |
| 2 | 读懂陌生代码库(Understand unfamiliar codebases) | 它能读懂、讲清复杂或老旧的代码,帮你快速搞懂别人的系统怎么组织 |
| 3 | 审查代码(Review code) | 分析代码、找出潜在 bug、逻辑错误、没处理的边界情况 |
| 4 | 调试与修复(Debug and fix problems) | 出问题时,帮你定位故障、诊断根因、给出有针对性的修复 |
| 5 | 自动化开发任务(Automate development tasks) | 跑重复的活——重构、测试、迁移、初始化配置——让你专注更高层的工程 |
把这张官方清单记在心里,你就有了一把「照妖镜」:凡是把 Codex 说成「只能补全下一行代码」「就是个聊天框」「和 2021 年那个 Codex 一样通过 API 补全」的说法,对照官方清单一眼就能看出过时或不准。
🔥 翔宇判断
判断一篇「Codex 是什么」的文章靠不靠谱,我的快筛标准只有一条:看它有没有讲清「读懂整个代码库 + 自己跑命令验证 + 自己产出可审查的结果」这条主线。讲清这条主线的,方向就对;只停在「写代码、补全」的,要么过时、要么没真用过。官方那 5 条能力里,第 2 条(读懂陌生代码库)和第 3 条(审查代码)是新手最容易低估、却最能体现「代理」价值的两条——它不只是帮你「产出」,更能帮你「理解」和「把关」。
回到本文开头讲的「同名不同物」:2021 年那个老 Codex 的官方定义是「代码补全模型」,能力清单里只有「补全」一项;2025 年起的新 Codex 官方定义是「编程代理」,能力清单是上面 5 条成体系的工程能力。一个是模型,一个是会用工具、能跑循环、自己验证的系统——这就是为什么本文反复强调先看日期、再看定义。新手只要守住「对照官方能力清单」这条原则,就不会再被五花八门的解释带偏。
这一节让你理解 Codex 内部到底发生了什么。
flowchart LR
A[1 接需求<br/>读你的提示词] --> B[2 拉上下文<br/>读 AGENTS.md<br/>+ 项目文件]
B --> C[3 规划<br/>给出任务步骤]
C --> D[4 执行<br/>改代码 + 跑命令]
D --> E[5 自审<br/>跑测试 + 看结果]
E --> F[6 报告<br/>产 PR + 总结]
E -->|测试不过| D
classDef step fill:#1f6feb,color:#fff,stroke:#0d3a8a,stroke-width:2px
class A,B,C,D,E,F step
步骤 1(接需求):你的提示词进入上下文窗口(context window)。
步骤 2(拉上下文):Codex 读项目根的 AGENTS.md(智能体指令文件)、相关源码、错误日志等,建立「这个项目」的理解。
步骤 3(规划):Codex 内部生成「我要做什么、按什么顺序」的计划。如果你开了规划模式(Plan Mode),它会先把计划展示给你审。
步骤 4(执行):Codex 调用工具——读文件、改代码、跑 shell 命令、调 git——一步步推进。
步骤 5(自审):跑测试 / lint 看结果。这是编程代理比通用 Agent 强的地方——它有客观验证标准。
步骤 6(报告):把结果总结给你——改了哪些文件、测试通过情况、PR 链接(如果接了 GitHub)。
步骤 5 测试失败时,Codex 会回到步骤 4 继续改——这就是常说的「Agentic Loop」(代理循环):
执行 → 看结果 → 判断「完成 or 继续」 → 决定下一步 → 执行...
这个循环可以跑几十到几百步直到任务完成。新手记住这个心智模型——Codex 不是「一次输出」的 AI,是「持续推进」的 AI。

这一节是资深用户的参考——我自己用了一年 Codex 的真实判断,给你做对照,不是让你照抄。
我刚开始用时也以为 Codex 就是「ChatGPT 的写代码模式 + 一些工具」。用了一年下来回头看——「编程代理」(Coding Agent)这个定义是准的。它的核心不是「写代码」,是「自主完成整段工程任务」。
差别在哪:
理解了这一点,使用方式就完全不同了——你的精力从「写细节指令」转移到「定义清楚目标」上。这个范式转变才是 Codex 的真实价值。
我见过太多人把 Codex 当「更厉害的 ChatGPT」用——把它当聊天框来回打字、不让它真正执行任务、不给它仓库访问权。这等于把豪车当自行车骑。
Codex 真正发挥价值的场景永远是「下班前丢任务、回来看结果」类的异步工作流——你不需要全程盯着,让它在后台跑,自己去做别的事。如果你还在用「实时聊天」的心态用 Codex,它给不了你 ChatGPT 之外的额外价值。
我现在的稳定组合:
三个工具分工明确互不重叠:
这是用了一年才稳定下来的组合——新手不要一开始就想配齐三件套。
我教过身边好几个朋友用 Codex,最容易让他们「啊哈」的第一个任务永远是「修一个真实的 bug」。
具体步骤:
这个流程跑完一次你就理解 Codex 是什么了——比读 100 篇文章都管用。
最后一个心得偏哲学但很重要:理解 Codex 的「编程代理」心智模型,等于理解了 2025-2026 年 AI 编程范式的最大转变——从「人写代码 + AI 辅助」到「人定义目标 + AI 自主完成」。
这个转变会持续——更多 AI 编程工具(Claude Code、Devin、Cursor 的 Composer、GitHub Copilot Agent)都在朝同一个方向走。你不学 Codex 的具体命令是小事,没建立「编程代理」心智模型才是大事。
❗ 翔宇提醒:高频坑
第一个坑:新手最常见的用法是把 Codex 当 ChatGPT——开个对话、问问题、复制代码、再自己粘回项目。这等于把它的「自主执行」能力全浪费了。正确的心态切换是:Codex 真正的价值在于「你不再逐行写代码,而是审 PR」。这个转变通常要一两周才建立起来,越早完成越省力。
第二个坑:第一次让 Codex 改我的核心代码时我没 git commit 检查点,结果 Codex 改了 3 个我不想改的文件,我费了半小时手工撤销。从此硬规则:任何让 Codex 改重要代码前必先 git commit 一次——10 秒钟换无限次回滚能力。
最大的认知误区。Codex 是另一类产品(编程代理),不是 ChatGPT 的延伸。用 Codex 要切换到「委托任务」心态,不是「实时对话」心态。
新手第一次用 Codex 应该选一个低风险的小任务(修小 bug / 加注释 / 写测试),先建立直觉。不要第一次就让它改你的生产代码或核心模块——你还不知道它什么时候会犯什么错。
新手默认应该开 Plan Mode 让 Codex 先规划再动手。OpenAI 官方说:「For most users, this is the easiest and most effective option」(对多数用户来说,这是最简单也最有效的选项)。
Codex 默认配置已经能跑,但不写 AGENTS.md 你会反复教它同一件事。第一周写一份 60 行的 AGENTS.md 是新手最高 ROI 的事——之后每次对话 Codex 自动加载,不用每次重新告诉它项目背景。
新手最爱在 Reddit 翻「Codex 好还是 Claude Code 好」「Cursor 好还是 Codex 好」——这些对比对新手没意义。新手第一阶段是「装一个用熟」,不是「比较 N 个选最好」。先用 Codex 跑两周再去看对比——你会发现你自己已经知道答案。
按下面顺序学,每件事建立在上一件事的基础上。
| # | 你跑两周后的需求 | 下一步学什么 |
|---|---|---|
| 1 | 「Codex 老忘项目规则」 | 学写 AGENTS.md(智能体指令文件) |
| 2 | 「不知道装哪个入口」 | 看 4 个入口对比 |
| 3 | 「不知道怎么写好提示词」 | 学 提示词五件套 |
| 4 | 「跑得越来越烧 credits」 | 学 模型与成本调节 |
| 5 | 「不放心让 AI 自动改」 | 学 沙箱与审批 |
| 6 | 「想接外部工具(搜索/文档)」 | 学 MCP 模型上下文协议 |
每一步都是「跑两周自然有的需求」对应「专题深入文章」。不要试图一次学齐——按顺序一步步来。
跑第一个任务前对自己问一遍:
任何一题答「没」都回去看对应章节。
新手到熟练用户的成长路径不是模糊的,可以拆成 6 个清晰里程碑。下面这张表给你 1-3 个月的完整路线。
| 里程碑 | 时长 | 关键动作 | 完成标志 |
|---|---|---|---|
| ① 第一次成功 | 第 1 天 | 让 Codex 修一个真实小 bug 并产 PR | 你看到「Codex 自己改了代码 + 测试通过 + 产 PR」整个流程 |
| ② 第一份 AGENTS.md | 第 1 周 | 给项目写一份 60 行的智能体指令文件 | Codex 不再反复犯同一种错误 |
| ③ 决定主入口 | 第 2 周 | 在 4 个入口里选 1-2 个固定用 | 你不再每次唤起前要想「用哪个入口」 |
| ④ 学会写好提示词 | 第 3-4 周 | 掌握「目标 + 上下文 + 输入 + 约束 + 完成标准」五件套 | 任务跑偏率从 80% 降到 30% |
| ⑤ 建立委托心态 | 第 1 个月 | 习惯「丢任务 → 做别的事 → 回来审 PR」工作流 | 你愿意让 Codex 后台跑 5-30 分钟而不焦虑 |
| ⑥ 多工具协作 | 第 2-3 个月 | 形成「Codex + Cursor / Copilot / Claude Code」分工组合 | 你知道每件事该让哪个工具做 |
每个里程碑卡住时回头看本系列对应专文:① 看本文;② 看 AGENTS.md 专文;③ 看入口对比专文;④ 看提示词专文;⑤ 看模型与成本专文(节奏感建立);⑥ 看完整指南 Pillar Page。
新手完成「第一次成功」后兴奋劲过了,最容易跳过下面这三件事——结果使用体验慢慢退步:
这三件事是新手到熟练用户分水岭——做了这三件,你才真正能稳定吃到 Codex 的红利;不做这三件,过两周就会觉得「Codex 也就那样」。
OpenAI Codex 是 OpenAI 出的「编程代理」(Coding Agent),不是 ChatGPT 的写代码模式。核心区别:ChatGPT 给建议你自己干;Codex 自己进项目改文件、跑测试、产 PR。
新手最佳起点:装 Codex 桌面应用 → 选一个真实小 bug → 让它修 → 审 PR → 合并。跑完这一次完整流程你就理解 Codex 是什么了。
至于翔宇我自己用了一年的 5 个心得 + 三件套组合——那是稳定下来的稳态,给你做参考,不是让你照抄。
外部参考(按本文引用顺序):
每周精选 AI 编程与自动化实战内容,直达你的邮箱