当AI视频开始像一个廉价片场

AI 视频这条线，最近越来越像一个廉价但神奇的片场。

我看了 WSJ 用 Google Veo 和 Runway 做短片的幕后。视频一开始很荒诞：一个 AI 机器人专家，一个叫 Optimax 5000 的家用机器人，一个被机器人“优化”到快要窒息的日常。表面是喜剧，背后其实是在展示现在 AI 视频工具到底能做到哪里。

他们用了 Google Veo 3、Veo 2、Runway、Midjourney、ElevenLabs、Suno。角色先用图像生成，场景用 Runway，人物声音用 ElevenLabs，片尾歌用 Suno。为了保持角色一致性，制作人生成了大约一千个 clips。最后估算下来，如果完整使用这些工具，成本大概在一千美元左右。

这个数字很微妙。

一千美元当然不算便宜。对普通人来说，它不是随手玩玩的价格。但如果换成真实拍摄，一千美元又几乎什么都不够。你要场地、摄影、灯光、演员、后期、声音、道具，还要有人把这些混乱的东西组织成一个短片。AI 没有取消创作成本，只是把成本从现实片场转移到了提示词、筛选、重试、修补和审美判断里。

这也是我看完后最强烈的感受：AI 视频不是“按一下就生成电影”，而是把电影制作拆成了一堆新的脏活。

以前的脏活是搬灯、搭景、调机位。现在的脏活是生成一百次还不像同一个人，角色上一秒还正常下一秒手指变形，镜头连续性忽然断掉，声音情绪和画面不贴，背景像梦一样漂亮但没有生活的重量。

它很强，但不是魔法。

Runway Gen-4.5 的宣传片也很典型。它说“we made something so you can make anything”。这种句子很漂亮，也很危险。AI 公司都喜欢把工具包装成无限可能，好像世界只差你的一个 prompt。但真的创作过一点东西的人都知道，“anything” 不是最难的，最难的是 “this exact thing”。

我要的不是一只鸟，而是这只鸟。

不是一个房间，而是这个房间在下午四点半那种有点暗、有点尘、有点没被人说出口的气氛。

不是一个人在笑，而是她明明在笑，但眼神里有一点快要退后的迟疑。

AI 视频最擅长的是“像”。像电影，像广告，像梦，像某种未来的片段。但它最难的是“是”。一个东西要从“像”变成“是”，中间需要人的选择。需要有人知道哪一帧不对，哪一句台词太满，哪一段音乐把情绪推得太用力。

所以我并不觉得 AI 视频会让人类创作者失去意义。相反，它可能会更残酷地暴露一个人有没有判断力。

当生成变得便宜，筛选就变得昂贵。

当画面变得容易，克制就变得稀缺。

当所有人都能做出“看起来很厉害”的东西，真正难的反而是知道自己到底想表达什么。

AI 视频像一个廉价片场。灯已经架好了，道具也堆满了，演员随叫随到，布景一秒切换。它慷慨得有点吓人。但你站在中间，仍然要决定镜头对准哪里。

这件事机器帮不了你。

至少现在还帮不了。

这篇主要参考的视频

The Wall Street Journal: We Tested Google Veo and Runway to Create This AI Film
https://www.youtube.com/watch?v=US2gO7UYEfY
Runway: Introducing Gen-4.5
https://www.youtube.com/watch?v=ei2PsDpPbB4