Codex 保姆级教程：从聊天到指挥 Agent 工作

这篇是根据学长 Ethan 的 YouTube 视频《Codex保姆級完整教學：從入門到進階，自動生成內容、網頁、影片和App，快速學會指揮你的超級AI Agent》整理的笔记。

视频链接：https://www.youtube.com/watch?v=tfeCwDT-5m0

我觉得这期视频最核心的一句话是：不要再把 AI 只当成“回答问题的聊天窗口”，而是要开始把它当成一个可以进入工作流、读写文件、调用工具、并行执行任务的 Agent。

过去我们使用 ChatGPT、Gemini、Claude 网页版时，大多数时候是这样的：你问一个问题，它给一个答案；真正复制、整理、改文件、打开网页、发邮件、做图、生成视频、部署网站的人，还是你自己。

但 Codex 这类本地 Agent 的变化在于：它不只是“给建议”，而是可以真的进入你的电脑和项目里，把任务做完。

Codex 和普通聊天 AI 的差别

视频一开始就强调了一个区别：

普通聊天 AI 更像顾问，Codex 更像一个会动手的数字员工。

它可以：

读写本地文件
进入某个项目目录工作
调用 Gmail、Calendar、Drive、Canva、Figma 等外部工具
生成图片、文档、网页、视频、App
同时跑多个任务
在后台执行，用户可以离开一会儿再回来验收结果

这也是 Agent 和 Chatbot 最大的心理差异。

Chatbot 让人习惯于“问”。

Agent 让人开始学习“管理”。

你不再只是追问“这个怎么做”，而是要学会告诉它：目标是什么、素材在哪里、输出格式是什么、质量标准是什么、完成后如何验证。

安装和登录：先把 Codex 放进自己的工作环境

视频里演示的第一步是搜索并下载 Codex App。打开后可以选择两种登录方式：

使用 ChatGPT 账号登录
使用 OpenAI API Key，或者其他兼容的大模型 API

如果只是想快速开始，作者更推荐先用 ChatGPT 账号登录。

登录之后，Codex 的界面大致可以分成几个区域：

左侧：会话和功能入口
左下：设置和额度查看
中间：主要对话区域
右侧：预览区域
输入框附近：添加文件、图片、选择模型、权限、项目、插件、规划模式等

这里有几个比较关键的设置：

Plan Mode：适合复杂项目开始前做调研和方案规划
权限等级：决定 Codex 能做多少事情
Project：让不同任务进入不同工作目录，避免上下文混乱
Effort / 智慧等级：复杂任务建议选择高或超高

Project：给 AI 员工准备办公桌

作者用一个很形象的比喻：Project 就像 AI 员工的办公桌。

如果没有 Project，AI 就像被临时叫来干活的人，做完东西也不知道应该放哪里；如果有了 Project，它就知道自己所在的工作空间、文件结构和任务边界。

所以正式使用 Codex 前，最好先做这件事：

创建一个属于当前工作的 Project。

比如你是内容创作者，可以建一个“内容创作”项目；如果你在开发 App，可以建一个“iOS App”项目；如果你在整理个人知识库，可以建一个“知识库维护”项目。

这样每次让 Codex 工作，它不会在一片空白里猜测，而是在一个明确的上下文里行动。

AGENTS.md：AI 员工的入职手册

视频里最值得记住的概念，是 AGENTS.md。

它相当于写给 AI Agent 的入职手册。Codex 每次开始工作前，会先读取这个文件，然后按照里面的规则做事。

一份简单的 AGENTS.md 可以包含：

你是谁：身份、项目、业务、受众
输出语言：简体中文、繁体中文、英文，还是中英混合
输出风格：务实、谨慎、口语化、正式、短句、长文
工作原则：先列计划、再执行、完成后报告改了哪些文件
文件结构：内容放哪里、素材放哪里、草稿放哪里
命名规范：文件名、日期、版本号、分类方式
质量要求：是否需要验证、是否需要测试、是否需要引用来源

这个文件不需要一开始写得很长。真正重要的是，它要把你反复说过很多遍的要求沉淀下来。

对我来说，这其实也是 Agent 工作流的核心：

不要每次都从零开始教 AI，而是慢慢把你的工作习惯变成环境的一部分。

当一个项目里有了 AGENTS.md，Agent 才不只是“聪明”，而是开始“懂你”。

Plugins：让 Codex 接上外部世界

Codex 里另一个重点是 Plugins。

视频里提到，Plugins 和 Skills 不一样：

Skills 更像一套标准工作流程
Plugins 更像连接外部软件和工具的接口

常见的插件包括：

Computer Use：操作电脑
Browser Use：操作浏览器
Gmail：读取和回复邮件
Google Calendar：查看和安排日程
Google Drive：访问云端文件
Canva：生成或编辑设计稿
Figma：读取设计文件
Vercel：部署网页或应用
GitHub：处理代码仓库和项目
Spreadsheet / Presentation：处理表格和简报

视频里演示了一个例子：让 Codex 搜索最近 7 天 Gmail 里的广告商单邀约，并整理成汇总。

这件事如果手动做，需要打开邮箱、搜索、筛选、复制信息、整理表格。但接入 Gmail 插件之后，它可以直接读邮件、归纳内容，甚至进一步起草回复。

这就是 Plugins 的价值：

让 Agent 不再停留在文本里，而是可以进入真实工具链。

Automations：把重复工作交给定时任务

Codex 还提供自动化功能，类似 Claude 里的 routine 或 schedule。

视频里的例子是：每天早上 10 点，自动根据最近的 PR 审查、工作记录和文件变更，整理出值得深化的 Skill，或者优化已有 Skill。

这个思路很有意思。

以前我们说“复盘”，往往是人自己找时间回忆今天做了什么；但 Agent 时代，复盘可以变成一种后台任务：

每天整理工作记录
每周总结常见问题
每月优化一次工作手册
自动发现重复任务并沉淀成 Skill
根据历史记录更新 AGENTS.md

也就是说，AI 不只是帮你做当下的事，还可以帮你维护“未来更好做事的系统”。

这一步可能比单次提效更重要。

Skills：把重复劳动变成标准流程

视频中对 Skill 的解释也很清楚：Skill 是一套可复用的 SOP。

比如你经常需要生成 IG 文案，就可以创建一个“IG 文案 Skill”，里面写清楚：

使用繁体中文
口语化
每则 150 字以内
结尾要有行动呼吁
适合某种频道受众
输出几版不同风格

以后你只要调用这个 Skill，Codex 就会按照同一套标准生成内容。

作者演示了用 Skill 生成介绍 Codex 的 IG 贴文，再调用生图能力生成配图，最后甚至可以把内容导入 Canva 继续编辑。

这里让我有一个很强的感受：

真正高效的人，不是每次 prompt 都写得很厉害，而是把高频工作封装成可以反复调用的能力。

一次写好，之后少想一点。

Fork Chat：把上下文分叉，避免任务互相污染

在和 Agent 多轮对话时，上下文很容易变乱。

你本来在做文章，突然又让它改网页；刚讨论完 App 设计，又插入一个邮件整理任务。对人来说只是“顺手问一句”，但对 Agent 来说，这些上下文可能互相干扰。

Codex 的 Fork Chat 可以把当前对话分叉出去。

分叉前的上下文完全一样，分叉后的任务彼此独立。适合用在：

同一个项目的两个不同方向
两个候选方案并行探索
不想污染主线对话的临时实验
多个任务需要同时推进

这其实很像 Git 的分支思维：

主线保持干净，实验交给分支。

CLI、MCP、API：Agent 的三种外部接口

视频后半段提到，API、CLI、MCP 本质上都可以理解成一种接口。

通过接口，Agent 才能调用外部能力：

API：通过网络服务调用模型或工具
CLI：通过命令行调用本地或第三方工具
MCP：让模型以标准协议连接外部系统

视频里举了几个例子：

接入即梦 CLI 生成视频
接入 Lib TV CLI 生成 Vlog 片段
根据分镜图生成穿搭视频
调用 Canva、Figma、Slides 做后续编辑

这里要特别注意成本问题。

视频生成类工具通常消耗积分很快，而 Agent 很擅长并行发起任务。如果不给它写清楚限制，它可能一次生成很多片段，把额度消耗得很快。

所以使用这类工具时，最好在 Skill 或 AGENTS.md 里写明：

每次最多生成几个版本
是否需要先确认再消耗积分
是否先用低成本模型打样
是否需要复用已有素材
是否允许并行任务

Agent 很强，但它默认不一定懂“省钱”。

从设计稿到 App：一句话生成还不够，关键是能预览和验证

视频里还演示了一个 iOS 音乐播放器 App 的生成流程。

大致步骤是：

找一张音乐播放器设计草图
把截图给 Codex
提示它参考设计风格生成类似 iOS App
预置几首音乐用于播放测试
调用 iOS App 开发插件
让 Codex 生成方案
确认后开始开发
调用 Xcode 模拟器预览和测试

这里关键不是“AI 写了代码”，而是完整链路：

从设计参考 → 方案 → 开发 → 预览 → 测试。

如果只是生成一张截图，那更像 demo；如果能在模拟器里真的运行、切歌、切换页面、测试交互，才接近一个可验证的结果。

所以以后用 Agent 做开发，最好每次都补一句：

不只要生成代码，还要提供可预览、可测试、可验证的结果。

我整理出来的 Codex 使用顺序

看完整期视频，我觉得初学者可以按这个顺序开始：

1. 先安装并登录 Codex

不用一开始就追求复杂配置，先能跑起来。

2. 建立第一个 Project

给不同工作建立不同项目，不要把所有任务混在一起。

3. 写一份简单的 AGENTS.md

先写最重要的几条：你是谁、做什么、输出什么语言、文件放哪里、完成后怎么汇报。

4. 从一个高频任务开始

不要一上来就让 Agent 接管所有工作。先找一个你每周都会重复做的任务，比如：

整理 YouTube 视频笔记
生成博客草稿
归纳邮件
生成社媒文案
整理会议纪要
检查代码变更

5. 把这个任务沉淀成 Skill

当你发现某个任务反复出现，就不要每次重新 prompt。把格式、规则、质量标准写进 Skill。

6. 再接入插件和自动化

等基础工作流稳定之后，再慢慢接 Gmail、Canva、Figma、GitHub、Calendar、视频生成工具等。

7. 最后才考虑多 Agent 并行

并行很诱人，但如果没有清晰的边界、文件结构和验证标准，很容易变成混乱的自动化。

最后：以后不是会不会用 AI，而是会不会指挥 Agent

这期视频最打动我的地方，不是某一个具体功能，而是它背后的转变。

过去我们使用 AI，像是在和一个很聪明的人聊天。

现在我们使用 Agent，更像是在搭建一个小型工作室：有人负责写，有人负责查，有人负责生成，有人负责测试，有人负责整理。你要做的不是亲手完成每一个动作，而是设计清楚任务、边界、标准和反馈。

这也是“会用 AI”和“会指挥 Agent”的区别。

前者得到答案。

后者得到交付。

如果今天只做三件事，我会建议是：

装好 Codex
建一个 Project 和 AGENTS.md
找一个最重复的任务，做成第一个 Skill

不需要一次完成所有事情。

但每往前一步，你的工作方式就会从“手动复制粘贴”，慢慢变成“设计流程、分配任务、验收结果”。

那可能才是 AI Agent 真正改变人的地方：

它不是让我们更忙，而是逼着我们重新理解，什么才是自己真正应该亲手做的事。