这两天扫 YouTube 的 AI 圈,最明显的感觉不是“又出了一个更聪明的模型”,而是 AI 开始从聊天框里伸出手脚了。

以前我们说 AI Agent,很多时候还是一种想象:你给它一个目标,它拆任务、写计划、调用工具,最后交付一个结果。听起来很美,但落到真实场景里,往往卡在一些很琐碎的地方。它不会点网页,不能稳定地看见页面状态,遇到登录、表单、弹窗、文件选择器,就像一个聪明但没有手的人,站在玻璃门外跟你讲道理。

但最近这些视频里,变化开始变得具体。

OpenAI Codex 的 computer use,被拿来做“非技术知识工作者”的专业 agent。视频里有一个说法很直白:这更像是 ChatGPT 有了一台电脑,可以自己运行,而不是一直陪你对话。它能打开浏览器,移动鼠标,找文件,分析视频帧,生成图片,整理工作流,甚至帮你把一个流程变成 SOP 和自动化规格。

我看到这里的时候,反而没有特别兴奋,更多是有一点熟悉。

因为这其实很像我们平时用 AI 的真实瓶颈。大多数事情并不难,难的是它们分散在不同地方:邮件里一点,Slack 里一点,日历里一点,网页后台一点,Excel 里一点。人类每天消耗掉的不是智力,而是切换窗口、复制粘贴、确认状态、等页面加载、重复检查。AI 如果只会回答问题,它最多是一个很会说话的顾问;但如果它能稳定地操作浏览器,它就开始接近一个真正的助理。

另一个视频讲 Claude Code + Playwright,也很有意思。作者让 Claude Code 同时启动三个 sub agent,用 Playwright CLI 去测试一个网站表单:一个测 happy path,一个测 validation,一个测 edge cases。正常情况下,这种事就是开发者自己开浏览器,填表,点提交,再重复几遍。但 agent + Playwright 后,它可以用 headless browser 同时跑多个角度,而且不需要一直盯着屏幕。

这里最关键的不是 Playwright 本身。Playwright 早就存在,自动化测试也不是新东西。真正变化的是:AI 开始学会把这些工具组织起来。

它不再只是“帮我写一段测试代码”,而是“你去帮我测试这件事”。这两句话中间差了一个层级。前者还是我在指挥一个代码生成器,后者更像我把一个小任务交给了某个临时同事。

当然,现在的 agent 还远远不可靠。它会误解页面,会重复做无用功,会在边界条件上漏东西,也会把一个简单任务搞得很隆重。但方向已经很清楚了:AI 的价值正在从“生成内容”转向“完成过程”。

这让我想到一个很细的区别。

聊天模型像一盏灯,照亮你正在想的东西。Agent 更像一只手,把你已经知道要做、但懒得做或没空做的事情往前推一点。灯很重要,但人不能只靠灯生活。我们最后还是要有人去开门、整理桌子、把散落在不同地方的东西归位。

所以 AI Agent 好玩的地方,不是它突然变得像人,而是它开始承担那些不像人的部分:无聊、重复、琐碎、机械,但又必须被完成的动作。

也许未来很长一段时间里,AI 不会真正替我们“思考人生”。它更可能先替我们把那些卡住人生的小按钮,一个一个按下去。

而那一刻,它就不再只是一个聊天框了。

它开始有了手。

这篇主要参考的视频