「Ember #003」关于AI视频生成的一些想法

这段时间 seedance 2.0 不是很火嘛，不过我也不确定是不是降智的问题，身边的一些朋友哪怕用 seedance 2.0，做出东西的效果也和最早的 suno 差不多，幻觉、错误依然层出不穷。
不过同时，b 站 up 主 DiDi_OK 的【牌子】当世界过分“诚实”，我们要如何保持好奇与勇气【B站AI创作大赛-开放赛道】，据他描述，他也不是全都用的 seedance,也用了非常多其他的模型，而且不同模型混用，当然一方面可能是 seedance 2.0 排队时间太长的问题。他的作品是我目前看到过最好的 AI 视频，不过有趣的是，这个视频是我的一个平时没有很关注这个领域的朋友推荐给我的，而我自己、以及我身边其他关注这个领域的人，反而没有收到推送。说回这个视频，作者绝对是重度的 AI 视频生成用户，无论是在选题上，还是具体的分镜设计、音乐设计上，作者的经验都十分丰富，选择像路牌这样的核心意象，作为简单几何体，AI 更加擅长，既保证了满足观众的猎奇心理，也将现在 AI 生成视频的上限体现得淋漓尽致。
为了研究这期视频，我也是反复看了好多遍，然后还去看了一下作者以前的视频和后续的采访，其实可以看到新的视频里作者并没有使用相比以前视频新的技术，以前视频里甚至存在一些更复杂的画面，而且以前的视频作者表示使用的是像 google veo3,runway 这样的模型，不过以前的视频不温不火，大概是以前的视频不够猎奇，尽管技术力高但是挺平淡的。
感觉其实这两期比较火的视频都有一个特点，就是画面之间其实没有很多的物理层面的逻辑联系（比如一个人推门走进房间），这也确实是 AI 目前来说不擅长的，尽管作者在后续采访表示他只有影视相关经验，对于音乐完全是 0 基础，但是不可否认的是，这期视频的音乐绝对是一个非常重要的因素，这期视频的音乐和画面的配合简直完美。
那么如何在如此混乱的情况下去制作观感良好的视频呢？我觉得首先，要像作者一样，既然画面都如此混乱了，那么一定要有一条主线不要乱，必须有一个东西贯穿始终，在作者往期视频里也可以发现作者十分喜欢这样做，鼠标，牌子，球，花，几乎每期视频都是围绕着一个抽象的意象进行的。过于复杂的剧情演绎是 AI 不擅长的，作者十分聪明地避开了这一点，用快速切换的场景与一条统一的主线，向我们展示了 AI 视频当前的优秀实践。作者作为职业导演，审美自然也不必多说，加上他对作品的追求，做出这么优秀的作品也很正常了。其实从这里也能看出来 AI 时代审美和理想真的真的很重要。具体的技术细节我还在研究，就先说这么多吧。
作者在后续采访中提到，他抽卡的次数是非常多的，花费的时间也很长，说真的成本有点高啊，有 b 站赛事的加持有大额奖金拿还算可以，不然的话单纯做视频，哪怕热度这么高，也不能算可持续。

才发现之前写的 commit 了没 push...犯笨了呜呜呜...我说怎么少一期...