这篇是根据学长 Ethan 的 YouTube 视频《Codex保姆級完整教學:從入門到進階,自動生成內容、網頁、影片和App,快速學會指揮你的超級AI Agent》整理的笔记。

视频链接:https://www.youtube.com/watch?v=tfeCwDT-5m0

我觉得这期视频最核心的一句话是:不要再把 AI 只当成“回答问题的聊天窗口”,而是要开始把它当成一个可以进入工作流、读写文件、调用工具、并行执行任务的 Agent。

过去我们使用 ChatGPT、Gemini、Claude 网页版时,大多数时候是这样的:你问一个问题,它给一个答案;真正复制、整理、改文件、打开网页、发邮件、做图、生成视频、部署网站的人,还是你自己。

但 Codex 这类本地 Agent 的变化在于:它不只是“给建议”,而是可以真的进入你的电脑和项目里,把任务做完。


Codex 和普通聊天 AI 的差别

视频一开始就强调了一个区别:

普通聊天 AI 更像顾问,Codex 更像一个会动手的数字员工。

它可以:

  • 读写本地文件
  • 进入某个项目目录工作
  • 调用 Gmail、Calendar、Drive、Canva、Figma 等外部工具
  • 生成图片、文档、网页、视频、App
  • 同时跑多个任务
  • 在后台执行,用户可以离开一会儿再回来验收结果

这也是 Agent 和 Chatbot 最大的心理差异。

Chatbot 让人习惯于“问”。

Agent 让人开始学习“管理”。

你不再只是追问“这个怎么做”,而是要学会告诉它:目标是什么、素材在哪里、输出格式是什么、质量标准是什么、完成后如何验证。

安装和登录:先把 Codex 放进自己的工作环境

视频里演示的第一步是搜索并下载 Codex App。打开后可以选择两种登录方式:

  1. 使用 ChatGPT 账号登录
  2. 使用 OpenAI API Key,或者其他兼容的大模型 API

如果只是想快速开始,作者更推荐先用 ChatGPT 账号登录。

登录之后,Codex 的界面大致可以分成几个区域:

  • 左侧:会话和功能入口
  • 左下:设置和额度查看
  • 中间:主要对话区域
  • 右侧:预览区域
  • 输入框附近:添加文件、图片、选择模型、权限、项目、插件、规划模式等

这里有几个比较关键的设置:

  • Plan Mode:适合复杂项目开始前做调研和方案规划
  • 权限等级:决定 Codex 能做多少事情
  • Project:让不同任务进入不同工作目录,避免上下文混乱
  • Effort / 智慧等级:复杂任务建议选择高或超高

Project:给 AI 员工准备办公桌

作者用一个很形象的比喻:Project 就像 AI 员工的办公桌。

如果没有 Project,AI 就像被临时叫来干活的人,做完东西也不知道应该放哪里;如果有了 Project,它就知道自己所在的工作空间、文件结构和任务边界。

所以正式使用 Codex 前,最好先做这件事:

创建一个属于当前工作的 Project。

比如你是内容创作者,可以建一个“内容创作”项目;如果你在开发 App,可以建一个“iOS App”项目;如果你在整理个人知识库,可以建一个“知识库维护”项目。

这样每次让 Codex 工作,它不会在一片空白里猜测,而是在一个明确的上下文里行动。

AGENTS.md:AI 员工的入职手册

视频里最值得记住的概念,是 AGENTS.md

它相当于写给 AI Agent 的入职手册。Codex 每次开始工作前,会先读取这个文件,然后按照里面的规则做事。

一份简单的 AGENTS.md 可以包含:

  • 你是谁:身份、项目、业务、受众
  • 输出语言:简体中文、繁体中文、英文,还是中英混合
  • 输出风格:务实、谨慎、口语化、正式、短句、长文
  • 工作原则:先列计划、再执行、完成后报告改了哪些文件
  • 文件结构:内容放哪里、素材放哪里、草稿放哪里
  • 命名规范:文件名、日期、版本号、分类方式
  • 质量要求:是否需要验证、是否需要测试、是否需要引用来源

这个文件不需要一开始写得很长。真正重要的是,它要把你反复说过很多遍的要求沉淀下来。

对我来说,这其实也是 Agent 工作流的核心:

不要每次都从零开始教 AI,而是慢慢把你的工作习惯变成环境的一部分。

当一个项目里有了 AGENTS.md,Agent 才不只是“聪明”,而是开始“懂你”。

Plugins:让 Codex 接上外部世界

Codex 里另一个重点是 Plugins。

视频里提到,Plugins 和 Skills 不一样:

  • Skills 更像一套标准工作流程
  • Plugins 更像连接外部软件和工具的接口

常见的插件包括:

  • Computer Use:操作电脑
  • Browser Use:操作浏览器
  • Gmail:读取和回复邮件
  • Google Calendar:查看和安排日程
  • Google Drive:访问云端文件
  • Canva:生成或编辑设计稿
  • Figma:读取设计文件
  • Vercel:部署网页或应用
  • GitHub:处理代码仓库和项目
  • Spreadsheet / Presentation:处理表格和简报

视频里演示了一个例子:让 Codex 搜索最近 7 天 Gmail 里的广告商单邀约,并整理成汇总。

这件事如果手动做,需要打开邮箱、搜索、筛选、复制信息、整理表格。但接入 Gmail 插件之后,它可以直接读邮件、归纳内容,甚至进一步起草回复。

这就是 Plugins 的价值:

让 Agent 不再停留在文本里,而是可以进入真实工具链。

Automations:把重复工作交给定时任务

Codex 还提供自动化功能,类似 Claude 里的 routine 或 schedule。

视频里的例子是:每天早上 10 点,自动根据最近的 PR 审查、工作记录和文件变更,整理出值得深化的 Skill,或者优化已有 Skill。

这个思路很有意思。

以前我们说“复盘”,往往是人自己找时间回忆今天做了什么;但 Agent 时代,复盘可以变成一种后台任务:

  • 每天整理工作记录
  • 每周总结常见问题
  • 每月优化一次工作手册
  • 自动发现重复任务并沉淀成 Skill
  • 根据历史记录更新 AGENTS.md

也就是说,AI 不只是帮你做当下的事,还可以帮你维护“未来更好做事的系统”。

这一步可能比单次提效更重要。

Skills:把重复劳动变成标准流程

视频中对 Skill 的解释也很清楚:Skill 是一套可复用的 SOP。

比如你经常需要生成 IG 文案,就可以创建一个“IG 文案 Skill”,里面写清楚:

  • 使用繁体中文
  • 口语化
  • 每则 150 字以内
  • 结尾要有行动呼吁
  • 适合某种频道受众
  • 输出几版不同风格

以后你只要调用这个 Skill,Codex 就会按照同一套标准生成内容。

作者演示了用 Skill 生成介绍 Codex 的 IG 贴文,再调用生图能力生成配图,最后甚至可以把内容导入 Canva 继续编辑。

这里让我有一个很强的感受:

真正高效的人,不是每次 prompt 都写得很厉害,而是把高频工作封装成可以反复调用的能力。

一次写好,之后少想一点。

Fork Chat:把上下文分叉,避免任务互相污染

在和 Agent 多轮对话时,上下文很容易变乱。

你本来在做文章,突然又让它改网页;刚讨论完 App 设计,又插入一个邮件整理任务。对人来说只是“顺手问一句”,但对 Agent 来说,这些上下文可能互相干扰。

Codex 的 Fork Chat 可以把当前对话分叉出去。

分叉前的上下文完全一样,分叉后的任务彼此独立。适合用在:

  • 同一个项目的两个不同方向
  • 两个候选方案并行探索
  • 不想污染主线对话的临时实验
  • 多个任务需要同时推进

这其实很像 Git 的分支思维:

主线保持干净,实验交给分支。

CLI、MCP、API:Agent 的三种外部接口

视频后半段提到,API、CLI、MCP 本质上都可以理解成一种接口。

通过接口,Agent 才能调用外部能力:

  • API:通过网络服务调用模型或工具
  • CLI:通过命令行调用本地或第三方工具
  • MCP:让模型以标准协议连接外部系统

视频里举了几个例子:

  • 接入即梦 CLI 生成视频
  • 接入 Lib TV CLI 生成 Vlog 片段
  • 根据分镜图生成穿搭视频
  • 调用 Canva、Figma、Slides 做后续编辑

这里要特别注意成本问题。

视频生成类工具通常消耗积分很快,而 Agent 很擅长并行发起任务。如果不给它写清楚限制,它可能一次生成很多片段,把额度消耗得很快。

所以使用这类工具时,最好在 Skill 或 AGENTS.md 里写明:

  • 每次最多生成几个版本
  • 是否需要先确认再消耗积分
  • 是否先用低成本模型打样
  • 是否需要复用已有素材
  • 是否允许并行任务

Agent 很强,但它默认不一定懂“省钱”。

从设计稿到 App:一句话生成还不够,关键是能预览和验证

视频里还演示了一个 iOS 音乐播放器 App 的生成流程。

大致步骤是:

  1. 找一张音乐播放器设计草图
  2. 把截图给 Codex
  3. 提示它参考设计风格生成类似 iOS App
  4. 预置几首音乐用于播放测试
  5. 调用 iOS App 开发插件
  6. 让 Codex 生成方案
  7. 确认后开始开发
  8. 调用 Xcode 模拟器预览和测试

这里关键不是“AI 写了代码”,而是完整链路:

从设计参考 → 方案 → 开发 → 预览 → 测试。

如果只是生成一张截图,那更像 demo;如果能在模拟器里真的运行、切歌、切换页面、测试交互,才接近一个可验证的结果。

所以以后用 Agent 做开发,最好每次都补一句:

不只要生成代码,还要提供可预览、可测试、可验证的结果。

我整理出来的 Codex 使用顺序

看完整期视频,我觉得初学者可以按这个顺序开始:

1. 先安装并登录 Codex

不用一开始就追求复杂配置,先能跑起来。

2. 建立第一个 Project

给不同工作建立不同项目,不要把所有任务混在一起。

3. 写一份简单的 AGENTS.md

先写最重要的几条:你是谁、做什么、输出什么语言、文件放哪里、完成后怎么汇报。

4. 从一个高频任务开始

不要一上来就让 Agent 接管所有工作。先找一个你每周都会重复做的任务,比如:

  • 整理 YouTube 视频笔记
  • 生成博客草稿
  • 归纳邮件
  • 生成社媒文案
  • 整理会议纪要
  • 检查代码变更

5. 把这个任务沉淀成 Skill

当你发现某个任务反复出现,就不要每次重新 prompt。把格式、规则、质量标准写进 Skill。

6. 再接入插件和自动化

等基础工作流稳定之后,再慢慢接 Gmail、Canva、Figma、GitHub、Calendar、视频生成工具等。

7. 最后才考虑多 Agent 并行

并行很诱人,但如果没有清晰的边界、文件结构和验证标准,很容易变成混乱的自动化。

最后:以后不是会不会用 AI,而是会不会指挥 Agent

这期视频最打动我的地方,不是某一个具体功能,而是它背后的转变。

过去我们使用 AI,像是在和一个很聪明的人聊天。

现在我们使用 Agent,更像是在搭建一个小型工作室:有人负责写,有人负责查,有人负责生成,有人负责测试,有人负责整理。你要做的不是亲手完成每一个动作,而是设计清楚任务、边界、标准和反馈。

这也是“会用 AI”和“会指挥 Agent”的区别。

前者得到答案。

后者得到交付。

如果今天只做三件事,我会建议是:

  1. 装好 Codex
  2. 建一个 Project 和 AGENTS.md
  3. 找一个最重复的任务,做成第一个 Skill

不需要一次完成所有事情。

但每往前一步,你的工作方式就会从“手动复制粘贴”,慢慢变成“设计流程、分配任务、验收结果”。

那可能才是 AI Agent 真正改变人的地方:

它不是让我们更忙,而是逼着我们重新理解,什么才是自己真正应该亲手做的事。