AI 视频这条线,最近越来越像一个廉价但神奇的片场。

我看了 WSJ 用 Google Veo 和 Runway 做短片的幕后。视频一开始很荒诞:一个 AI 机器人专家,一个叫 Optimax 5000 的家用机器人,一个被机器人“优化”到快要窒息的日常。表面是喜剧,背后其实是在展示现在 AI 视频工具到底能做到哪里。

他们用了 Google Veo 3、Veo 2、Runway、Midjourney、ElevenLabs、Suno。角色先用图像生成,场景用 Runway,人物声音用 ElevenLabs,片尾歌用 Suno。为了保持角色一致性,制作人生成了大约一千个 clips。最后估算下来,如果完整使用这些工具,成本大概在一千美元左右。

这个数字很微妙。

一千美元当然不算便宜。对普通人来说,它不是随手玩玩的价格。但如果换成真实拍摄,一千美元又几乎什么都不够。你要场地、摄影、灯光、演员、后期、声音、道具,还要有人把这些混乱的东西组织成一个短片。AI 没有取消创作成本,只是把成本从现实片场转移到了提示词、筛选、重试、修补和审美判断里。

这也是我看完后最强烈的感受:AI 视频不是“按一下就生成电影”,而是把电影制作拆成了一堆新的脏活。

以前的脏活是搬灯、搭景、调机位。现在的脏活是生成一百次还不像同一个人,角色上一秒还正常下一秒手指变形,镜头连续性忽然断掉,声音情绪和画面不贴,背景像梦一样漂亮但没有生活的重量。

它很强,但不是魔法。

Runway Gen-4.5 的宣传片也很典型。它说“we made something so you can make anything”。这种句子很漂亮,也很危险。AI 公司都喜欢把工具包装成无限可能,好像世界只差你的一个 prompt。但真的创作过一点东西的人都知道,“anything” 不是最难的,最难的是 “this exact thing”。

我要的不是一只鸟,而是这只鸟。

不是一个房间,而是这个房间在下午四点半那种有点暗、有点尘、有点没被人说出口的气氛。

不是一个人在笑,而是她明明在笑,但眼神里有一点快要退后的迟疑。

AI 视频最擅长的是“像”。像电影,像广告,像梦,像某种未来的片段。但它最难的是“是”。一个东西要从“像”变成“是”,中间需要人的选择。需要有人知道哪一帧不对,哪一句台词太满,哪一段音乐把情绪推得太用力。

所以我并不觉得 AI 视频会让人类创作者失去意义。相反,它可能会更残酷地暴露一个人有没有判断力。

当生成变得便宜,筛选就变得昂贵。

当画面变得容易,克制就变得稀缺。

当所有人都能做出“看起来很厉害”的东西,真正难的反而是知道自己到底想表达什么。

AI 视频像一个廉价片场。灯已经架好了,道具也堆满了,演员随叫随到,布景一秒切换。它慷慨得有点吓人。但你站在中间,仍然要决定镜头对准哪里。

这件事机器帮不了你。

至少现在还帮不了。

这篇主要参考的视频