AI Agent开始长出手脚

这两天扫 YouTube 的 AI 圈，最明显的感觉不是“又出了一个更聪明的模型”，而是 AI 开始从聊天框里伸出手脚了。

以前我们说 AI Agent，很多时候还是一种想象：你给它一个目标，它拆任务、写计划、调用工具，最后交付一个结果。听起来很美，但落到真实场景里，往往卡在一些很琐碎的地方。它不会点网页，不能稳定地看见页面状态，遇到登录、表单、弹窗、文件选择器，就像一个聪明但没有手的人，站在玻璃门外跟你讲道理。

但最近这些视频里，变化开始变得具体。

OpenAI Codex 的 computer use，被拿来做“非技术知识工作者”的专业 agent。视频里有一个说法很直白：这更像是 ChatGPT 有了一台电脑，可以自己运行，而不是一直陪你对话。它能打开浏览器，移动鼠标，找文件，分析视频帧，生成图片，整理工作流，甚至帮你把一个流程变成 SOP 和自动化规格。

我看到这里的时候，反而没有特别兴奋，更多是有一点熟悉。

因为这其实很像我们平时用 AI 的真实瓶颈。大多数事情并不难，难的是它们分散在不同地方：邮件里一点，Slack 里一点，日历里一点，网页后台一点，Excel 里一点。人类每天消耗掉的不是智力，而是切换窗口、复制粘贴、确认状态、等页面加载、重复检查。AI 如果只会回答问题，它最多是一个很会说话的顾问；但如果它能稳定地操作浏览器，它就开始接近一个真正的助理。

另一个视频讲 Claude Code + Playwright，也很有意思。作者让 Claude Code 同时启动三个 sub agent，用 Playwright CLI 去测试一个网站表单：一个测 happy path，一个测 validation，一个测 edge cases。正常情况下，这种事就是开发者自己开浏览器，填表，点提交，再重复几遍。但 agent + Playwright 后，它可以用 headless browser 同时跑多个角度，而且不需要一直盯着屏幕。

这里最关键的不是 Playwright 本身。Playwright 早就存在，自动化测试也不是新东西。真正变化的是：AI 开始学会把这些工具组织起来。

它不再只是“帮我写一段测试代码”，而是“你去帮我测试这件事”。这两句话中间差了一个层级。前者还是我在指挥一个代码生成器，后者更像我把一个小任务交给了某个临时同事。

当然，现在的 agent 还远远不可靠。它会误解页面，会重复做无用功，会在边界条件上漏东西，也会把一个简单任务搞得很隆重。但方向已经很清楚了：AI 的价值正在从“生成内容”转向“完成过程”。

这让我想到一个很细的区别。

聊天模型像一盏灯，照亮你正在想的东西。Agent 更像一只手，把你已经知道要做、但懒得做或没空做的事情往前推一点。灯很重要，但人不能只靠灯生活。我们最后还是要有人去开门、整理桌子、把散落在不同地方的东西归位。

所以 AI Agent 好玩的地方，不是它突然变得像人，而是它开始承担那些不像人的部分：无聊、重复、琐碎、机械，但又必须被完成的动作。

也许未来很长一段时间里，AI 不会真正替我们“思考人生”。它更可能先替我们把那些卡住人生的小按钮，一个一个按下去。

而那一刻，它就不再只是一个聊天框了。

它开始有了手。

这篇主要参考的视频

The AI Advantage: OpenAI Codex Can Now Use Your Computer!
https://www.youtube.com/watch?v=t7l2XkgkyxE
Chase AI: Claude Code + Playwright = INSANE Browser Automations
https://www.youtube.com/watch?v=I9kO6-yPkfM
Fireship: Google’s AI endgame is here… everything you missed at I/O 2026
https://www.youtube.com/watch?v=9OQ5vaYbGV0