代码助手大战之后,我反而更在意工作流
最近 YouTube 上很多人在做 Claude Code、Codex、Cursor 之类的对比。标题通常都很直接:谁更强,谁更快,谁更值得付钱。
我一开始也是带着这种心态看的。毕竟工具之间确实有差异。有人让 Claude Code 和 Codex 同时做一个实时协作 Markdown 编辑器,看速度、成本、完成度和代码质量。结果里有些细节很有意思:Codex 会主动打开浏览器预览、验证功能、创建文档;Claude Code 有时候更像一个在终端里认真工作的工程师,但未必会主动去做可视化验证。另一些视频则说,Claude Code 适合复杂代码生成,Cursor 适合在 IDE 里边写边审,Codex 的界面和 computer use 让它更像一个带工作台的 agent。
但看多了之后,我反而觉得“谁更聪明”这个问题没有那么重要。
因为真正影响体验的,往往不是模型单次回答的智商,而是它能不能嵌进一个稳定的工作流里。
一个 AI 编程工具,如果只是能生成很多代码,其实很容易制造另一种负担。它写得越快,你越需要审;它改得越多,你越需要回滚;它越自信,你越要担心那些没有被它看见的边界。代码不是文章,错一个地方可能就会在很后面爆炸。所以我现在更在意几个问题:
它会不会自己运行?
它会不会自己测试?
它会不会知道什么时候该停下来问人?
它会不会把改动解释清楚,而不是只给我一堆 diff?
它能不能在上下文快要变脏的时候,把任务沉淀成 skill、脚本、测试用例,而不是每次重新从 prompt 开始?
这也是我觉得 AI 编程进入下一阶段的地方。以前大家比的是模型能力,现在开始比“工程化的照护能力”。一个好的 coding agent,不应该只是一个码字很快的实习生,而应该像一个会收拾现场的人。它改完代码之后,知道检查格式,知道跑测试,知道把失败原因摊开,知道哪些文件不该碰,知道不要把临时状态混进提交里。
视频里还有一个细节我很喜欢:有人用 Whisper Flow 这类语音输入工具写 prompt。乍看这和 coding agent 没关系,但其实关系很大。AI 编程让“表达意图”变成了新的编码方式。以前我们用键盘写代码,现在我们用自然语言描述系统边界、交互细节、验收标准。这个时候,prompt 不再是魔法咒语,而更像需求文档的即时版本。
所以一个舒服的 AI 编程环境,可能不是单个最强模型,而是一组松散但互相补位的东西:
Claude Code 负责深水区的代码改造。
Codex 负责带界面的 agent 工作台和 computer use。
Cursor 负责细粒度审查和局部编辑。
Playwright 负责让浏览器里的东西可验证。
语音输入负责把脑子里那些还没成形的意图快速倒出来。
测试和脚本负责把一次性的好运气变成可重复的确定性。
这听起来有点麻烦,但也许这就是 2026 年 AI 编程真正的样子。不是一个万能按钮,而是一张工具网。人仍然站在中间,判断方向,设定边界,决定哪些东西可以交给机器,哪些东西必须自己看一眼。
我以前会期待某个 AI 工具“彻底替我写代码”。现在反而没那么期待了。
我更希望它像一个可靠的夜班同事。话不用太多,但该跑的测试会跑,该看的日志会看,该留下的记录会留下。第二天早上我回来时,桌面没有更乱,问题也没有被藏起来。
这已经很难得了。
这篇主要参考的视频
- Tech With Tim: I Built the Same App With Claude Code and Codex
https://www.youtube.com/watch?v=E2UgYp2vh5U - Tech With Tim: The Only AI Coding Tools Worth Learning in 2026
https://www.youtube.com/watch?v=-VTiqivKOB8 - Riley Brown: Codex Full Course 2026
https://www.youtube.com/watch?v=KXIdYEdOPys

