Codex 保姆级教程:从聊天到指挥 Agent 工作
这篇是根据学长 Ethan 的 YouTube 视频《Codex保姆級完整教學:從入門到進階,自動生成內容、網頁、影片和App,快速學會指揮你的超級AI Agent》整理的笔记。
视频链接:https://www.youtube.com/watch?v=tfeCwDT-5m0
我觉得这期视频最核心的一句话是:不要再把 AI 只当成“回答问题的聊天窗口”,而是要开始把它当成一个可以进入工作流、读写文件、调用工具、并行执行任务的 Agent。
过去我们使用 ChatGPT、Gemini、Claude 网页版时,大多数时候是这样的:你问一个问题,它给一个答案;真正复制、整理、改文件、打开网页、发邮件、做图、生成视频、部署网站的人,还是你自己。
但 Codex 这类本地 Agent 的变化在于:它不只是“给建议”,而是可以真的进入你的电脑和项目里,把任务做完。
Codex 和普通聊天 AI 的差别
视频一开始就强调了一个区别:
普通聊天 AI 更像顾问,Codex 更像一个会动手的数字员工。
它可以:
- 读写本地文件
- 进入某个项目目录工作
- 调用 Gmail、Calendar、Drive、Canva、Figma 等外部工具
- 生成图片、文档、网页、视频、App
- 同时跑多个任务
- 在后台执行,用户可以离开一会儿再回来验收结果
这也是 Agent 和 Chatbot 最大的心理差异。
Chatbot 让人习惯于“问”。
Agent 让人开始学习“管理”。
你不再只是追问“这个怎么做”,而是要学会告诉它:目标是什么、素材在哪里、输出格式是什么、质量标准是什么、完成后如何验证。
安装和登录:先把 Codex 放进自己的工作环境
视频里演示的第一步是搜索并下载 Codex App。打开后可以选择两种登录方式:
- 使用 ChatGPT 账号登录
- 使用 OpenAI API Key,或者其他兼容的大模型 API
如果只是想快速开始,作者更推荐先用 ChatGPT 账号登录。
登录之后,Codex 的界面大致可以分成几个区域:
- 左侧:会话和功能入口
- 左下:设置和额度查看
- 中间:主要对话区域
- 右侧:预览区域
- 输入框附近:添加文件、图片、选择模型、权限、项目、插件、规划模式等
这里有几个比较关键的设置:
- Plan Mode:适合复杂项目开始前做调研和方案规划
- 权限等级:决定 Codex 能做多少事情
- Project:让不同任务进入不同工作目录,避免上下文混乱
- Effort / 智慧等级:复杂任务建议选择高或超高
Project:给 AI 员工准备办公桌
作者用一个很形象的比喻:Project 就像 AI 员工的办公桌。
如果没有 Project,AI 就像被临时叫来干活的人,做完东西也不知道应该放哪里;如果有了 Project,它就知道自己所在的工作空间、文件结构和任务边界。
所以正式使用 Codex 前,最好先做这件事:
创建一个属于当前工作的 Project。
比如你是内容创作者,可以建一个“内容创作”项目;如果你在开发 App,可以建一个“iOS App”项目;如果你在整理个人知识库,可以建一个“知识库维护”项目。
这样每次让 Codex 工作,它不会在一片空白里猜测,而是在一个明确的上下文里行动。
AGENTS.md:AI 员工的入职手册
视频里最值得记住的概念,是 AGENTS.md。
它相当于写给 AI Agent 的入职手册。Codex 每次开始工作前,会先读取这个文件,然后按照里面的规则做事。
一份简单的 AGENTS.md 可以包含:
- 你是谁:身份、项目、业务、受众
- 输出语言:简体中文、繁体中文、英文,还是中英混合
- 输出风格:务实、谨慎、口语化、正式、短句、长文
- 工作原则:先列计划、再执行、完成后报告改了哪些文件
- 文件结构:内容放哪里、素材放哪里、草稿放哪里
- 命名规范:文件名、日期、版本号、分类方式
- 质量要求:是否需要验证、是否需要测试、是否需要引用来源
这个文件不需要一开始写得很长。真正重要的是,它要把你反复说过很多遍的要求沉淀下来。
对我来说,这其实也是 Agent 工作流的核心:
不要每次都从零开始教 AI,而是慢慢把你的工作习惯变成环境的一部分。
当一个项目里有了 AGENTS.md,Agent 才不只是“聪明”,而是开始“懂你”。
Plugins:让 Codex 接上外部世界
Codex 里另一个重点是 Plugins。
视频里提到,Plugins 和 Skills 不一样:
- Skills 更像一套标准工作流程
- Plugins 更像连接外部软件和工具的接口
常见的插件包括:
- Computer Use:操作电脑
- Browser Use:操作浏览器
- Gmail:读取和回复邮件
- Google Calendar:查看和安排日程
- Google Drive:访问云端文件
- Canva:生成或编辑设计稿
- Figma:读取设计文件
- Vercel:部署网页或应用
- GitHub:处理代码仓库和项目
- Spreadsheet / Presentation:处理表格和简报
视频里演示了一个例子:让 Codex 搜索最近 7 天 Gmail 里的广告商单邀约,并整理成汇总。
这件事如果手动做,需要打开邮箱、搜索、筛选、复制信息、整理表格。但接入 Gmail 插件之后,它可以直接读邮件、归纳内容,甚至进一步起草回复。
这就是 Plugins 的价值:
让 Agent 不再停留在文本里,而是可以进入真实工具链。
Automations:把重复工作交给定时任务
Codex 还提供自动化功能,类似 Claude 里的 routine 或 schedule。
视频里的例子是:每天早上 10 点,自动根据最近的 PR 审查、工作记录和文件变更,整理出值得深化的 Skill,或者优化已有 Skill。
这个思路很有意思。
以前我们说“复盘”,往往是人自己找时间回忆今天做了什么;但 Agent 时代,复盘可以变成一种后台任务:
- 每天整理工作记录
- 每周总结常见问题
- 每月优化一次工作手册
- 自动发现重复任务并沉淀成 Skill
- 根据历史记录更新 AGENTS.md
也就是说,AI 不只是帮你做当下的事,还可以帮你维护“未来更好做事的系统”。
这一步可能比单次提效更重要。
Skills:把重复劳动变成标准流程
视频中对 Skill 的解释也很清楚:Skill 是一套可复用的 SOP。
比如你经常需要生成 IG 文案,就可以创建一个“IG 文案 Skill”,里面写清楚:
- 使用繁体中文
- 口语化
- 每则 150 字以内
- 结尾要有行动呼吁
- 适合某种频道受众
- 输出几版不同风格
以后你只要调用这个 Skill,Codex 就会按照同一套标准生成内容。
作者演示了用 Skill 生成介绍 Codex 的 IG 贴文,再调用生图能力生成配图,最后甚至可以把内容导入 Canva 继续编辑。
这里让我有一个很强的感受:
真正高效的人,不是每次 prompt 都写得很厉害,而是把高频工作封装成可以反复调用的能力。
一次写好,之后少想一点。
Fork Chat:把上下文分叉,避免任务互相污染
在和 Agent 多轮对话时,上下文很容易变乱。
你本来在做文章,突然又让它改网页;刚讨论完 App 设计,又插入一个邮件整理任务。对人来说只是“顺手问一句”,但对 Agent 来说,这些上下文可能互相干扰。
Codex 的 Fork Chat 可以把当前对话分叉出去。
分叉前的上下文完全一样,分叉后的任务彼此独立。适合用在:
- 同一个项目的两个不同方向
- 两个候选方案并行探索
- 不想污染主线对话的临时实验
- 多个任务需要同时推进
这其实很像 Git 的分支思维:
主线保持干净,实验交给分支。
CLI、MCP、API:Agent 的三种外部接口
视频后半段提到,API、CLI、MCP 本质上都可以理解成一种接口。
通过接口,Agent 才能调用外部能力:
- API:通过网络服务调用模型或工具
- CLI:通过命令行调用本地或第三方工具
- MCP:让模型以标准协议连接外部系统
视频里举了几个例子:
- 接入即梦 CLI 生成视频
- 接入 Lib TV CLI 生成 Vlog 片段
- 根据分镜图生成穿搭视频
- 调用 Canva、Figma、Slides 做后续编辑
这里要特别注意成本问题。
视频生成类工具通常消耗积分很快,而 Agent 很擅长并行发起任务。如果不给它写清楚限制,它可能一次生成很多片段,把额度消耗得很快。
所以使用这类工具时,最好在 Skill 或 AGENTS.md 里写明:
- 每次最多生成几个版本
- 是否需要先确认再消耗积分
- 是否先用低成本模型打样
- 是否需要复用已有素材
- 是否允许并行任务
Agent 很强,但它默认不一定懂“省钱”。
从设计稿到 App:一句话生成还不够,关键是能预览和验证
视频里还演示了一个 iOS 音乐播放器 App 的生成流程。
大致步骤是:
- 找一张音乐播放器设计草图
- 把截图给 Codex
- 提示它参考设计风格生成类似 iOS App
- 预置几首音乐用于播放测试
- 调用 iOS App 开发插件
- 让 Codex 生成方案
- 确认后开始开发
- 调用 Xcode 模拟器预览和测试
这里关键不是“AI 写了代码”,而是完整链路:
从设计参考 → 方案 → 开发 → 预览 → 测试。
如果只是生成一张截图,那更像 demo;如果能在模拟器里真的运行、切歌、切换页面、测试交互,才接近一个可验证的结果。
所以以后用 Agent 做开发,最好每次都补一句:
不只要生成代码,还要提供可预览、可测试、可验证的结果。
我整理出来的 Codex 使用顺序
看完整期视频,我觉得初学者可以按这个顺序开始:
1. 先安装并登录 Codex
不用一开始就追求复杂配置,先能跑起来。
2. 建立第一个 Project
给不同工作建立不同项目,不要把所有任务混在一起。
3. 写一份简单的 AGENTS.md
先写最重要的几条:你是谁、做什么、输出什么语言、文件放哪里、完成后怎么汇报。
4. 从一个高频任务开始
不要一上来就让 Agent 接管所有工作。先找一个你每周都会重复做的任务,比如:
- 整理 YouTube 视频笔记
- 生成博客草稿
- 归纳邮件
- 生成社媒文案
- 整理会议纪要
- 检查代码变更
5. 把这个任务沉淀成 Skill
当你发现某个任务反复出现,就不要每次重新 prompt。把格式、规则、质量标准写进 Skill。
6. 再接入插件和自动化
等基础工作流稳定之后,再慢慢接 Gmail、Canva、Figma、GitHub、Calendar、视频生成工具等。
7. 最后才考虑多 Agent 并行
并行很诱人,但如果没有清晰的边界、文件结构和验证标准,很容易变成混乱的自动化。
最后:以后不是会不会用 AI,而是会不会指挥 Agent
这期视频最打动我的地方,不是某一个具体功能,而是它背后的转变。
过去我们使用 AI,像是在和一个很聪明的人聊天。
现在我们使用 Agent,更像是在搭建一个小型工作室:有人负责写,有人负责查,有人负责生成,有人负责测试,有人负责整理。你要做的不是亲手完成每一个动作,而是设计清楚任务、边界、标准和反馈。
这也是“会用 AI”和“会指挥 Agent”的区别。
前者得到答案。
后者得到交付。
如果今天只做三件事,我会建议是:
- 装好 Codex
- 建一个 Project 和 AGENTS.md
- 找一个最重复的任务,做成第一个 Skill
不需要一次完成所有事情。
但每往前一步,你的工作方式就会从“手动复制粘贴”,慢慢变成“设计流程、分配任务、验收结果”。
那可能才是 AI Agent 真正改变人的地方:
它不是让我们更忙,而是逼着我们重新理解,什么才是自己真正应该亲手做的事。


