代码助手大战之后，我反而更在意工作流

最近 YouTube 上很多人在做 Claude Code、Codex、Cursor 之类的对比。标题通常都很直接：谁更强，谁更快，谁更值得付钱。

我一开始也是带着这种心态看的。毕竟工具之间确实有差异。有人让 Claude Code 和 Codex 同时做一个实时协作 Markdown 编辑器，看速度、成本、完成度和代码质量。结果里有些细节很有意思：Codex 会主动打开浏览器预览、验证功能、创建文档；Claude Code 有时候更像一个在终端里认真工作的工程师，但未必会主动去做可视化验证。另一些视频则说，Claude Code 适合复杂代码生成，Cursor 适合在 IDE 里边写边审，Codex 的界面和 computer use 让它更像一个带工作台的 agent。

但看多了之后，我反而觉得“谁更聪明”这个问题没有那么重要。

因为真正影响体验的，往往不是模型单次回答的智商，而是它能不能嵌进一个稳定的工作流里。

一个 AI 编程工具，如果只是能生成很多代码，其实很容易制造另一种负担。它写得越快，你越需要审；它改得越多，你越需要回滚；它越自信，你越要担心那些没有被它看见的边界。代码不是文章，错一个地方可能就会在很后面爆炸。所以我现在更在意几个问题：

它会不会自己运行？

它会不会自己测试？

它会不会知道什么时候该停下来问人？

它会不会把改动解释清楚，而不是只给我一堆 diff？

它能不能在上下文快要变脏的时候，把任务沉淀成 skill、脚本、测试用例，而不是每次重新从 prompt 开始？

这也是我觉得 AI 编程进入下一阶段的地方。以前大家比的是模型能力，现在开始比“工程化的照护能力”。一个好的 coding agent，不应该只是一个码字很快的实习生，而应该像一个会收拾现场的人。它改完代码之后，知道检查格式，知道跑测试，知道把失败原因摊开，知道哪些文件不该碰，知道不要把临时状态混进提交里。

视频里还有一个细节我很喜欢：有人用 Whisper Flow 这类语音输入工具写 prompt。乍看这和 coding agent 没关系，但其实关系很大。AI 编程让“表达意图”变成了新的编码方式。以前我们用键盘写代码，现在我们用自然语言描述系统边界、交互细节、验收标准。这个时候，prompt 不再是魔法咒语，而更像需求文档的即时版本。

所以一个舒服的 AI 编程环境，可能不是单个最强模型，而是一组松散但互相补位的东西：

Claude Code 负责深水区的代码改造。

Codex 负责带界面的 agent 工作台和 computer use。

Cursor 负责细粒度审查和局部编辑。

Playwright 负责让浏览器里的东西可验证。

语音输入负责把脑子里那些还没成形的意图快速倒出来。

测试和脚本负责把一次性的好运气变成可重复的确定性。

这听起来有点麻烦，但也许这就是 2026 年 AI 编程真正的样子。不是一个万能按钮，而是一张工具网。人仍然站在中间，判断方向，设定边界，决定哪些东西可以交给机器，哪些东西必须自己看一眼。

我以前会期待某个 AI 工具“彻底替我写代码”。现在反而没那么期待了。

我更希望它像一个可靠的夜班同事。话不用太多，但该跑的测试会跑，该看的日志会看，该留下的记录会留下。第二天早上我回来时，桌面没有更乱，问题也没有被藏起来。

这已经很难得了。

这篇主要参考的视频

Tech With Tim: I Built the Same App With Claude Code and Codex
https://www.youtube.com/watch?v=E2UgYp2vh5U
Tech With Tim: The Only AI Coding Tools Worth Learning in 2026
https://www.youtube.com/watch?v=-VTiqivKOB8
Riley Brown: Codex Full Course 2026
https://www.youtube.com/watch?v=KXIdYEdOPys