這一次，「大力出奇跡」的是快手

白鯨出海 · 08/09 07:07

距离 Sora 给 demo 已经半年多了，炸场之后没了动静，但带出了一众“小弟”，不算华人在做的 Pika、Haiper，真正土生土长的“国产大模型”也都在上一周在全球市场卷起来了，前后脚陆续上线，包括 Kling、Pixverse V2、Vidu 等等。

不仅如此，这批视频模型都自信了起来，全球上线成了基本操作，敢于接受海内外用户的检视。关于几个模型的测评已经铺天盖地，但我们更好奇的是国内与海外的用户们到底给予了怎样的评价？

海外炸场，国产“ Sora ”们这一波反馈如何

注：Pixverse V1 在今年 1 月上线，有一定的流量基础，M 为百万

在了解用户反馈之前，我们先介绍一下最近杀出来的几个模型，包括快手的可灵、爱诗科技的 Pixverse V2 和生数科技 Vidu，基本的参数与功能如上所示。

除了基础功能外，我们也根据收集到的海外用户热评总结出了几个测试维度，包括主体一致性、空间关系理解、运镜理解、以及场景还原度，用一个包含上述维度的 prompt 对 3 款模型进行测试，方便大家对各个模型生成视频质量有一个直观感受后，再去感受用户评价。

Prompt：侧面拍摄，镜头跟随狸花猫，一只狸花猫从广场的左边跑向广场的右边，遇到一只哈士奇并跳起来跨越了哈士奇。

可灵：场景还原度较高，但在空间理解上差点意思。生成的狸花猫是从右往左过去的，跨越哈士奇的动作比较还原，但狸花猫还是出现了一定程度的变形，主体一致性一般，运镜上不符合要求，是从侧面拍摄、但镜头没有跟随。

Pixverse V2：空间关系理解差，并没有体现狸花猫从广场的左边跑向右边，跨越的动作也没有出现，此外在运动过程中猫和哈士奇都出现了比较大的变形，主体一致性差，除此之外，运镜同样不符合要求，视频清晰度也不够，甚至可以说质量较差。为防止是运气问题，我们又抽了一次卡，但仍然出现了处理提示词理解不到位以及主体变形的问题。

Vidu：场景基本还原，空间理解上和可灵不相上下，猫的运动方向正确、但没呈现跨越的动作。猫和狗的形态都比较自然，主体一致性不错，运镜也符合要求的，侧面拍摄且镜头跟随猫推进。

至此，我们根据测评结果对这几个模型的表现进行一个小结：

我们测试后对 3 个视频生成模型的评价（上），用户对 3 个模型生成视频的反馈总结（下），注：我们将用户评价和测评结果不一致的地方标黄了 | 白鲸出海根据网络评论整理

将我们自己的测试结果，与我们搜集到的网友评论进行对比后发现，可灵在用户中的口碑更好一些，普遍认为它的效果独一档，不知道是否是prompt的问题，与我们的测试有一些出入。PixVerse V2 是一款老产品推出了新模型，但网友认为它的效果不太理想，算是落后了，这与我们的观察一致。而 Vidu 则靠着在动画风视频中的出色发挥获得了用户的好评，且在一致性和运镜理解上都有不错的表现，总体评价中等。

感兴趣的用户，也可以详细看下海外用户都说了什么？（用户评论收集方法：为了了解海内外用户对这一波密集的大模型上线的反馈，通过关键词搜索，我们在几个主流的科技爱好者社区 X、Reddit、油管评论区集中浏览了平台上对近期推出的国产视频模型的评论，选取了一些高转赞、高频次的评价作为用户反馈的代表。）

背靠快手的可灵，“真香”了

X 的网友在“求号”

可灵于 7 月 6 日网页端上线，在海外收获了不少好评，甚至出现了一号难求的局面，可灵 7 月在海外的访问量也达到 228 万，国内访问量 140 万，从数据上看，海外的声量还更大点。

可灵基本参数

在性能上，广大海外网友的反馈为“超预期”，提示词理解、主体一致性和连贯性几个点都获得了高度赞扬，明显优于其他模型。此外，还原吃喝动作，可灵“无敌”，读者可以感受一下。

除了质量好之外，UI 友好，工具齐全，性价比高也让可灵收获了很多好评。而海外网友的差评普遍在去水印和支付这两个点上，有用户反馈，虽然会员权益里有去水印，但实际用的时候却找不到，而且支付方式的接入也不齐全，产品细节和本地化上可灵还有可优化的地方。

国内用户对可灵的评论

而相比海外网友一片夸夸，国内网友就严格得多了。他们表示，付费后可灵的视频生成质量还是无法达到预期，生成时间也长。

“老牌”产品Pixverse推出的 V2，可能有点落后了

PixVerse的基本参数

Pixverse 的母公司是爱诗科技，由前字节 AI 技术总监王长虎创立，于今年 1 月上线，而 7 月 24 日 PixVerse 推出的是新款模型 PixVerse V2。

除了视频质量和模型性能提升，PixVerseV2 推出了一项新功能，能一次性生成 1-5 段连续的视频内容，且片段之间会自动保持主体形象、画面风格和场景元素的一致，强化了可用性，而对应地，PixverseV2 也有其他 2 款视频模型不具备的角色生成视频功能，一致性，感觉是 PixVerseV2 在攻克的重点，但是不论是我们测评的结果、还是用户的反馈，PixVerseV2 的一致性的表现都是最差的。不论怎么样，根据 Similarweb 的数据，V2 发布当天 PixVerse 网站的流量还是迎来一个小高峰。

根据国外网友对 Luma、可灵、runway Gen3、Haiper、Pixverse V2 的评测来看，PixverseV2 在主体一致性、场景还原度等方面差点意思，弱于可灵、runway Gen3 和 Luma 等产品，读者可以自行体会一下 Pixverse V2 的生视频质量。

虽然写实场景表现一般，但 PixverseV2 在奇幻风格上表现还不错，不仅画面比较丰富，视频崩掉的情况也少了。在 PixverseV2 的高浏览量油管测评视频的评论区，也有用户反馈这一点。

在图生视频层面，Pixverse 之前广受好评的 Magic brush 功能暂时不支持新模型，用户如果想使用 Magic brush 的话还得切换回 PixverseV1。

从清华走出的Vidu，是动画特长生

Vidu 基本参数

Vidu 是生数科技和清华大学合作开发的，在 7 月 30 日正式上线。

Prompt ：一个穿水手服的少女眼神哀愁地站在樱花树下遥望远方，颜色清新淡雅

Vidu 虽然动画风与写实风都可以生成，但网友们都表示，相比写实风，动画风是 Vidu 的强项。笔者自己也试了一下，Vidu 做得相当好，氛围感一整个拿捏。

Prompt ：一个穿水手服的少女眼神哀愁地站在樱花树下遥望远方，颜色清新淡雅

而同样的提示词在写实风格中生成就稍微有点奇怪，而且氛围感要弱一点。此外，大家普遍反映，因为 Vidu 生视频的动作幅度会比较大，可能会导致视频整个崩掉，抽卡成功率大大降低，这么一看，笔者的手气还可以。

国内有媒体又用 Sora 的经典场景测试了 Vidu，但生成的视频中就出现了人物走动过快而导致整个画面模糊，女人和路人都变成鬼影的情况。总体来看，Vidu 在写实风的表现一般。

此外，对比其他 2 个模型，Vidu 的生成速度是最快的，能控制在在 1min 之内（可灵是 2-5min，Pixverse 是 3-7min），可能是由于动作幅度大，生成质量不稳定，要频繁抽卡，Vidu 着重优化了这一点。但显然，相比生成效果，用户并不太在意生成速度。

经过我们的对用户反馈的观察和自己的测试，可以得出大致结论：虽然在我们自己测评时，可灵表现的没网友口中那么好，但综合实力确实还是第一的，但如果按“能用”为标准可能细节上还差不少。Vidu 处于中间位置，但由于偏重动画风，算是一个特长生，能满足一部分用户的需求。PixverseV2 生成质量上确实有点落后了。

而相对 Luma、Pika 这些海外视频模型，国产模型做出来的视频虽然也不能直接用，但对比起来好像还不错，而本周，阿里又推出视频轨迹可控的 Tora、智谱连夜开源了 CogVideoX，面壁也推出了小钢炮 2.6，大家一起卷，这种“繁华”背后是什么原因，从这次表现有点优异的快手身上，好像能找到点痕迹。

视频生成没有弯道超车，只有“大力出奇迹”，这次是快手

这一次国产大模型“集体自信”，其实也并非无迹可寻。视频生成工具集中爆发的原因，其实我们在《这个AI赛道，一个月内融资4笔，一大半的创始人是华人》选题中曾经有过一次观察。

从主观意愿上来说，在当下的互联网格局中，视频模态是最贴近用户，商业化天花板最高的模态，而且国内又是短视频时代的先行者。有了这两个前提，就有了如今“百模大战”热度减退，我们距离海外的 LLM 依然有不小距离的情况下，国内厂商在视频大模型上依然在卷。

Sora 使用的是 DiT 架构，全名 Diffusion- Transformer，其中 Diffusion 的作用是细化和完善视频画面，而 Transformer 则用来处理和解析复杂的文本输入，并控制视频的逻辑连贯性，这个技术路径结合了之前两种主流技术路径的优点。

而从客观可行性上，Sora 虽然一直在跳票，但让 AI 视频生成的技术路径清晰了起来。我们上文观察到的可灵、Vidu、Pixverse V2，加上智谱 AI 推出的清影等，无一例外都走了与 Sora 类似的技术路径，Pixverse 的王长虎就表示：“在 Sora 出来之前，业内其实并不相信视频生成能在短时间内做出来，Sora 的出现让我们坚定了前进的方向。”

意愿+可行性同时具备，各个国内厂商就开始了“拼速度”。而可灵这次算是令人比较惊艳的，这与快手短视频大厂的身份不无相关。快手具备大视频模型和视频平台的双重身份，也更可能打通从生产到应用的链条，所以我们也重点回顾了下快手这次的突袭。

3 个月上线产品，快手已经为可灵准备很久了

可灵的前身是快手内部的一个图片转 GIF 的项目“噗叽”，但这个项目在去年 10 月上马后不久就搁浅了。而 2 月 Sora 的爆火让快手视觉生成与互动中心负责人万鹏飞看到了视频生成的机会，所以 3 月就基于“噗叽”的技术储备立项了可灵。

但在立项的同时，市场上已经有 Haiper、Pixverse 等华人视频创企推出了产品或完成了融资，“老对头”字节，也推出了一款 AI 视频模型，彼时的快手真的落后了不少。但仅用了 3 个月，可灵就开始了测试，而且赶在其他玩家之前在 7 月初上线。能够如此快速上线，数据集和硬件储备是两大重点。

如上所述，其实在技术路径相对明确之后，厂商更多的其实在拼训练数据、对业务的理解、甚至算力储备。

先说数据集，根据量子位的报道，作为短视频平台，个性化推荐是拉长用户时长的重要手段，快手的 AI 团队也在很早以前就建立了一套完备的标注体系，也包括自动视频质量评估算法这类技术。基于这套体系，团队会对快手平台上的视频，从基础质量、美学、自然度等多个方面进行标注，而且还扩展出了大量的细化维度，形成立即可用的高质量训练数据集。

这一点真是属于先天优势，在其他大模型还面临扒 YouTube 视频来训练、版权争议的时候，快手已经有清洗好的数据了。

英伟达与快手 2019 年合作的新闻（上），快手与英伟达今年的合作（下）

快手除了年初在囤卡之外，早在 2019 年，快手就与英伟达展开了合作，部署并优化过算力平台。而在今年英伟达的 GTC 大会上，快手与英伟达还宣布合作突破了推荐系统的算力优化技术。在算力的调配与优化上，快手凭借着经验和与英伟达的长期合作，也有可能是有过人之处的。硬件储备和算力优化技术在算力密集型的视频生成赛道，同等重要。

而这背后都是可灵获得了全力支持，这与快手本身的商业化路径密不可分。

3 个模型背后是完全不同的思路，快手真的可能会更快些

而实际上，除了可灵，这次视频大模型这次集体“出海”，AI 视频确实开始了比较有针对性的落地测试，如助力创作者、赋能电商、短剧制作、甚至一些自媒体 AIGC 视频的生成。

自有生态的快手，是定位和路径最清晰的那个。快手的收入主要来自 3 块，营销、直播、电商，而这三块收入又都建立在用户使用时长的基础上，时长又和平台上的可消费内容的量强相关。

从可灵初期的推广动作来看，快手的视频大模型，直指收入和可消费内容两大核心问题。

根据媒体报道，第一批受邀去测试可灵的是各平台的 AI 博主们，这些博主测评后发布的内容，在快手上的，就会获得流量支持，在其他平台发布的，快手也会选择优秀者帮忙买量。

快手在 2024 全球人工智能大会上宣布举办视频创作者大赛

除此之外，快手也举办了各种活动，激励创作者把可灵用起来，比如基于可灵图生视频功能推出的“复活古画”和“让老照片动起来”的挑战活动，再比如举办创作者大赛。

根据计算，2023 年快手创作者占总用户的比例可能只有 19%，相比 2021 年财报披露的 25% 下降了不少，绝对数量上，这几年也稳定在 1.4 亿这个数量级上。快手希望通过 AIGC，降低创作者的门槛，让更多用户加入创作者行列，增加平台上的可消费内容。此外，在短剧等快速增长的内容版块中，快手也在积极地探索 AI 的使用，来高效生产内容。

电商是另一个重要应用场景，在邀请创作者测试的同时，快手也将部分测试资格交给了电商合作伙伴。有快手内部技术人员告诉媒体：“让 AI 生成一个跳舞的人很难，但基于一张图生成杯子的视频却不难，AI 生视频更可能被用在解决电商卖家缺素材的痛点上。”

图注：在动态视频里，镜头转过去的时候，一开始还可以，但突然就歪掉了，而且还多了一个把手，而静态视频效果还不错，但是运镜会有点奇怪

基于商品图让 AI 生成视频的难度肯定会比生成“跳跃的猫”要简单些，但因为涉及到实体产品的销售，对主体一致性和视频细节的要求极高，否则退货率肯定飙升。现在看来，可灵的质量可能还不能满足电商场景的要求。但是让用户用起来，收集反馈，再优化质量，可能是快手在电商领域进行尝试必须走的一步。

由于有助力本身业务的目的，据知情人士透露，可灵没有商业化目标，投入也无明确上限，推出会员模式也是为了覆盖掉一部分推理成本。而从几款产品的定价来看，可灵虽然不是单条视频价格最便宜的，但却是免费额度最高的。

反观 Vidu 和 PixVerse，走得更像是服务艺术创作者，靠自身订阅变现的逻辑。除了短视频创作者和电商/企业用户以外，视频生成工具还有一类目标人群是电影、纪录片等从业者，这类人群更注重运动控制、场景还原和运镜等维度，对视频的细节要求也更高。

而 Pixverse 和 Vidu 显然还是面向这类用户。Pixverse V2 的测试效果较差，但从功能来看，Magic Brush、以及连续生成多段主体一致性视频的攻克方向，明显面向这类人群。Vidu 的动漫强于写实，而且着重优化了生成速度，猜测是服务于需要频繁“抽卡”，追求最佳效果的创作者，而动漫的创作可能也是 AI 生成视频更务实的落地场景。

广电传媒参股 Pixverse 的新闻（上），Pixverse 与电影创作者协会合作的新闻（下）

就 Pixverse 和 Vidu 面向专业创作者的思路来看，其生成效果距离实现目标，可能还很远。而可灵，借助于快手的平台，以及营销、短剧、电商等几条自有业务线，真的有可能在目前已经取得一些成绩的基础上，越走越快。

字节，其实早在今年 5 月上线了 AI 生成视频网站即梦，但从声量上是弱于可灵，不论 AI 生成视频是否能发展成为一个独立的营收业务线，但快手从自有业务和商业化出发，在时间点相对落的情况下迅速跟进，总算是“早了一回”。

参考文献：

1、文生视频大模型，短视频的过弯点？

2、可灵让快手支棱起来了？

3、快手版 Sora「可灵」开放测试：生成超 120s 视频，更懂物理，复杂运动也能精准建模

4、快手可灵，能成为中国 Sora 吗？

5、合作快手，丝滑换脸。短剧出海的铲子股——超讯通信今天又有什么新技术？

6、揭秘快手可灵背后的「关键 7 人」

7、揭秘“中国版 Sora ”可灵：程一笑督战，20人团队三个月完成的快手版“大力出奇迹”

8、在海外，Sora 正在被可灵替代

9、「国产版 Sora」Vidu 全面开放，对比 Runway、可灵后我发现它是动画特长生

距離 Sora 給 demo 已經半年多了，炸場之後沒了動靜，但帶出了一衆「小弟」，不算華人在做的 Pika、Haiper，真正土生土長的「國產大模型」也都在上一週在全球市場捲起來了，前後腳陸續上線，包括 Kling、Pixverse V2、Vidu 等等。

不僅如此，這批視頻模型都自信了起來，全球上線成了基本操作，敢於接受海內外用戶的檢視。關於幾個模型的測評已經鋪天蓋地，但我們更好奇的是國內與海外的用戶們到底給予了怎樣的評價？

海外炸場，國產「 Sora 」們這一波反饋如何

注：Pixverse V1 在今年 1 月上線，有一定的流量基礎，M 爲百萬

在了解用戶反饋之前，我們先介紹一下最近殺出來的幾個模型，包括快手的可靈、愛詩科技的 Pixverse V2 和生數科技 Vidu，基本的參數與功能如上所示。

除了基礎功能外，我們也根據收集到的海外用戶熱評總結出了幾個測試維度，包括主體一致性、空間關係理解、運鏡理解、以及場景還原度，用一個包含上述維度的 prompt 對 3 款模型進行測試，方便大家對各個模型生成視頻質量有一個直觀感受後，再去感受用戶評價。

Prompt：側面拍攝，鏡頭跟隨狸花貓，一隻狸花貓從廣場的左邊跑向廣場的右邊，遇到一隻哈士奇並跳起來跨越了哈士奇。

可靈：場景還原度較高，但在空間理解上差點意思。生成的狸花貓是從右往左過去的，跨越哈士奇的動作比較還原，但狸花貓還是出現了一定程度的變形，主體一致性一般，運鏡上不符合要求，是從側面拍攝、但鏡頭沒有跟隨。

Pixverse V2：空間關係理解差，並沒有體現狸花貓從廣場的左邊跑向右邊，跨越的動作也沒有出現，此外在運動過程中貓和哈士奇都出現了比較大的變形，主體一致性差，除此之外，運鏡同樣不符合要求，視頻清晰度也不夠，甚至可以說質量較差。爲防止是運氣問題，我們又抽了一次卡，但仍然出現了處理提示詞理解不到位以及主體變形的問題。

Vidu：場景基本還原，空間理解上和可靈不相上下，貓的運動方向正確、但沒呈現跨越的動作。貓和狗的形態都比較自然，主體一致性不錯，運鏡也符合要求的，側面拍攝且鏡頭跟隨貓推進。

至此，我們根據測評結果對這幾個模型的表現進行一個小結：

我們測試後對 3 個視頻生成模型的評價（上），用戶對 3 個模型生成視頻的反饋總結（下），注：我們將用戶評價和測評結果不一致的地方標黃了 | 白鯨出海根據網絡評論整理

將我們自己的測試結果，與我們蒐集到的網友評論進行對比後發現，可靈在用戶中的口碑更好一些，普遍認爲它的效果獨一檔，不知道是否是prompt的問題，與我們的測試有一些出入。PixVerse V2 是一款老產品推出了新模型，但網友認爲它的效果不太理想，算是落後了，這與我們的觀察一致。而 Vidu 則靠着在動畫風視頻中的出色發揮獲得了用戶的好評，且在一致性和運鏡理解上都有不錯的表現，總體評價中等。

感興趣的用戶，也可以詳細看下海外用戶都說了什麼？（用戶評論收集方法：爲了了解海內外用戶對這一波密集的大模型上線的反饋，通過關鍵詞搜索，我們在幾個主流的科技愛好者社區 X、Reddit、油管評論區集中瀏覽了平台上對近期推出的國產視頻模型的評論，選取了一些高轉贊、高頻次的評價作爲用戶反饋的代表。）

背靠快手的可靈，「真香」了

X 的網友在「求號」

可靈於 7 月 6 日網頁端上線，在海外收穫了不少好評，甚至出現了一號難求的局面，可靈 7 月在海外的訪問量也達到 228 萬，國內訪問量 140 萬，從數據上看，海外的聲量還更大點。

可靈基本參數

在性能上，廣大海外網友的反饋爲「超預期」，提示詞理解、主體一致性和連貫性幾個點都獲得了高度讚揚，明顯優於其他模型。此外，還原吃喝動作，可靈「無敵」，讀者可以感受一下。

除了質量好之外，UI 友好，工具齊全，性價比高也讓可靈收穫了很多好評。而海外網友的差評普遍在去水印和支付這兩個點上，有用戶反饋，雖然會員權益裏有去水印，但實際用的時候卻找不到，而且支付方式的接入也不齊全，產品細節和本地化上可靈還有可優化的地方。

國內用戶對可靈的評論

而相比海外網友一片誇誇，國內網友就嚴格得多了。他們表示，付費後可靈的視頻生成質量還是無法達到預期，生成時間也長。

「老牌」產品Pixverse推出的 V2，可能有點落後了

PixVerse的基本參數

Pixverse 的母公司是愛詩科技，由前字節 AI 技術總監王長虎創立，於今年 1 月上線，而 7 月 24 日 PixVerse 推出的是新款模型 PixVerse V2。

除了視頻質量和模型性能提升，PixVerseV2 推出了一項新功能，能一次性生成 1-5 段連續的視頻內容，且片段之間會自動保持主體形象、畫面風格和場景元素的一致，強化了可用性，而對應地，PixverseV2 也有其他 2 款視頻模型不具備的角色生成視頻功能，一致性，感覺是 PixVerseV2 在攻克的重點，但是不論是我們測評的結果、還是用戶的反饋，PixVerseV2 的一致性的表現都是最差的。不論怎麼樣，根據 Similarweb 的數據，V2 發佈當天 PixVerse 網站的流量還是迎來一個小高峰。

根據國外網友對 Luma、可靈、runway Gen3、Haiper、Pixverse V2 的評測來看，PixverseV2 在主體一致性、場景還原度等方面差點意思，弱於可靈、runway Gen3 和 Luma 等產品，讀者可以自行體會一下 Pixverse V2 的生視頻質量。

雖然寫實場景表現一般，但 PixverseV2 在奇幻風格上表現還不錯，不僅畫面比較豐富，視頻崩掉的情況也少了。在 PixverseV2 的高瀏覽量油管測評視頻的評論區，也有用戶反饋這一點。

在圖生視頻層面，Pixverse 之前廣受好評的 Magic brush 功能暫時不支持新模型，用戶如果想使用 Magic brush 的話還得切換回 PixverseV1。

從清華走出的Vidu，是動畫特長生

Vidu 基本參數

Vidu 是生數科技和清華大學合作開發的，在 7 月 30 日正式上線。

Prompt ：一個穿水手服的少女眼神哀愁地站在櫻花樹下遙望遠方，顏色清新淡雅

Vidu 雖然動畫風與寫實風都可以生成，但網友們都表示，相比寫實風，動畫風是 Vidu 的強項。筆者自己也試了一下，Vidu 做得相當好，氛圍感一整個拿捏。

Prompt ：一個穿水手服的少女眼神哀愁地站在櫻花樹下遙望遠方，顏色清新淡雅

而同樣的提示詞在寫實風格中生成就稍微有點奇怪，而且氛圍感要弱一點。此外，大家普遍反映，因爲 Vidu 生視頻的動作幅度會比較大，可能會導致視頻整個崩掉，抽卡成功率大大降低，這麼一看，筆者的手氣還可以。

國內有媒體又用 Sora 的經典場景測試了 Vidu，但生成的視頻中就出現了人物走動過快而導致整個畫面模糊，女人和路人都變成鬼影的情況。總體來看，Vidu 在寫實風的表現一般。

此外，對比其他 2 個模型，Vidu 的生成速度是最快的，能控制在在 1min 之內（可靈是 2-5min，Pixverse 是 3-7min），可能是由於動作幅度大，生成質量不穩定，要頻繁抽卡，Vidu 着重優化了這一點。但顯然，相比生成效果，用戶並不太在意生成速度。

經過我們的對用戶反饋的觀察和自己的測試，可以得出大致結論：雖然在我們自己測評時，可靈表現的沒網友口中那麼好，但綜合實力確實還是第一的，但如果按「能用」爲標準可能細節上還差不少。Vidu 處於中間位置，但由於偏重動畫風，算是一個特長生，能滿足一部分用戶的需求。PixverseV2 生成質量上確實有點落後了。

而相對 Luma、Pika 這些海外視頻模型，國產模型做出來的視頻雖然也不能直接用，但對比起來好像還不錯，而本週，阿里又推出視頻軌跡可控的 Tora、智譜連夜開源了 CogVideoX，面壁也推出了小鋼炮 2.6，大家一起卷，這種「繁華」背後是什麼原因，從這次表現有點優異的快手身上，好像能找到點痕跡。

視頻生成沒有彎道超車，只有「大力出奇跡」，這次是快手

這一次國產大模型「集體自信」，其實也並非無跡可尋。視頻生成工具集中爆發的原因，其實我們在《這個AI賽道，一個月內融資4筆，一大半的創始人是華人》選題中曾經有過一次觀察。

從主觀意願上來說，在當下的互聯網格局中，視頻模態是最貼近用戶，商業化天花板最高的模態，而且國內又是短視頻時代的先行者。有了這兩個前提，就有了如今「百模大戰」熱度減退，我們距離海外的 LLM 依然有不小距離的情況下，國內廠商在視頻大模型上依然在卷。

Sora 使用的是 DiT 架構，全名 Diffusion- Transformer，其中 Diffusion 的作用是細化和完善視頻畫面，而 Transformer 則用來處理和解析複雜的文本輸入，並控制視頻的邏輯連貫性，這個技術路徑結合了之前兩種主流技術路徑的優點。

而從客觀可行性上，Sora 雖然一直在跳票，但讓 AI 視頻生成的技術路徑清晰了起來。我們上文觀察到的可靈、Vidu、Pixverse V2，加上智譜 AI 推出的清影等，無一例外都走了與 Sora 類似的技術路徑，Pixverse 的王長虎就表示：「在 Sora 出來之前，業內其實並不相信視頻生成能在短時間內做出來，Sora 的出現讓我們堅定了前進的方向。」

意願+可行性同時具備，各個國內廠商就開始了「拼速度」。而可靈這次算是令人比較驚豔的，這與快手短視頻大廠的身份不無相關。快手具備大視頻模型和視頻平台的雙重身份，也更可能打通從生產到應用的鏈條，所以我們也重點回顧了下快手這次的突襲。

3 個月上線產品，快手已經爲可靈準備很久了

可靈的前身是快手內部的一個圖片轉 GIF 的項目「噗嘰」，但這個項目在去年 10 月上馬後不久就擱淺了。而 2 月 Sora 的爆火讓快手視覺生成與互動中心負責人萬鵬飛看到了視頻生成的機會，所以 3 月就基於「噗嘰」的技術儲備立項了可靈。

但在立項的同時，市場上已經有 Haiper、Pixverse 等華人視頻創企推出了產品或完成了融資，「老對頭」字節，也推出了一款 AI 視頻模型，彼時的快手真的落後了不少。但僅用了 3 個月，可靈就開始了測試，而且趕在其他玩家之前在 7 月初上線。能夠如此快速上線，數據集和硬件儲備是兩大重點。

如上所述，其實在技術路徑相對明確之後，廠商更多的其實在拼訓練數據、對業務的理解、甚至算力儲備。

先說數據集，根據量子位的報道，作爲短視頻平台，個性化推薦是拉長用戶時長的重要手段，快手的 AI 團隊也在很早以前就建立了一套完備的標註體系，也包括自動視頻質量評估算法這類技術。基於這套體系，團隊會對快手平台上的視頻，從基礎質量、美學、自然度等多個方面進行標註，而且還擴展出了大量的細化維度，形成立即可用的高質量訓練數據集。

這一點真是屬於先天優勢，在其他大模型還面臨扒 YouTube 視頻來訓練、版權爭議的時候，快手已經有清洗好的數據了。

英偉達與快手 2019 年合作的新聞（上），快手與英偉達今年的合作（下）

快手除了年初在囤卡之外，早在 2019 年，快手就與英偉達展開了合作，部署並優化過算力平台。而在今年英偉達的 GTC 大會上，快手與英偉達還宣佈合作突破了推薦系統的算力優化技術。在算力的調配與優化上，快手憑藉着經驗和與英偉達的長期合作，也有可能是有過人之處的。硬件儲備和算力優化技術在算力密集型的視頻生成賽道，同等重要。

而這背後都是可靈獲得了全力支持，這與快手本身的商業化路徑密不可分。

3 個模型背後是完全不同的思路，快手真的可能會更快些

而實際上，除了可靈，這次視頻大模型這次集體「出海」，AI 視頻確實開始了比較有針對性的落地測試，如助力創作者、賦能電商、短劇製作、甚至一些自媒體 AIGC 視頻的生成。

自有生態的快手，是定位和路徑最清晰的那個。快手的收入主要來自 3 塊，營銷、直播、電商，而這三塊收入又都建立在用戶使用時長的基礎上，時長又和平台上的可消費內容的量強相關。

從可靈初期的推廣動作來看，快手的視頻大模型，直指收入和可消費內容兩大核心問題。

根據媒體報道，第一批受邀去測試可靈的是各平台的 AI 博主們，這些博主測評後發佈的內容，在快手上的，就會獲得流量支持，在其他平台發佈的，快手也會選擇優秀者幫忙買量。

快手在 2024 全球人工智能大會上宣佈舉辦視頻創作者大賽

除此之外，快手也舉辦了各種活動，激勵創作者把可靈用起來，比如基於可靈圖生視頻功能推出的「復活古畫」和「讓老照片動起來」的挑戰活動，再比如舉辦創作者大賽。

根據計算，2023 年快手創作者佔總用戶的比例可能只有 19%，相比 2021 年業績披露的 25% 下降了不少，絕對數量上，這幾年也穩定在 1.4 億這個數量級上。快手希望通過 AIGC，降低創作者的門檻，讓更多用戶加入創作者行列，增加平台上的可消費內容。此外，在短劇等快速增長的內容版塊中，快手也在積極地探索 AI 的使用，來高效生產內容。

電商是另一個重要應用場景，在邀請創作者測試的同時，快手也將部分測試資格交給了電商合作伙伴。有快手內部技術人員告訴媒體：「讓 AI 生成一個跳舞的人很難，但基於一張圖生成杯子的視頻卻不難，AI 生視頻更可能被用在解決電商賣家缺素材的痛點上。」

圖注：在動態視頻裏，鏡頭轉過去的時候，一開始還可以，但突然就歪掉了，而且還多了一個把手，而靜態視頻效果還不錯，但是運鏡會有點奇怪

基於商品圖讓 AI 生成視頻的難度肯定會比生成「跳躍的貓」要簡單些，但因爲涉及到實體產品的銷售，對主體一致性和視頻細節的要求極高，否則退貨率肯定飆升。現在看來，可靈的質量可能還不能滿足電商場景的要求。但是讓用戶用起來，收集反饋，再優化質量，可能是快手在電商領域進行嘗試必須走的一步。

由於有助力本身業務的目的，據知情人士透露，可靈沒有商業化目標，投入也無明確上限，推出會員模式也是爲了覆蓋掉一部分推理成本。而從幾款產品的定價來看，可靈雖然不是單條視頻價格最便宜的，但卻是免費額度最高的。

反觀 Vidu 和 PixVerse，走得更像是服務藝術創作者，靠自身訂閱變現的邏輯。除了短視頻創作者和電商/企業用戶以外，視頻生成工具還有一類目標人群是電影、紀錄片等從業者，這類人群更注重運動控制、場景還原和運鏡等維度，對視頻的細節要求也更高。

而 Pixverse 和 Vidu 顯然還是面向這類用戶。Pixverse V2 的測試效果較差，但從功能來看，Magic Brush、以及連續生成多段主體一致性視頻的攻克方向，明顯面向這類人群。Vidu 的動漫強於寫實，而且着重優化了生成速度，猜測是服務於需要頻繁「抽卡」，追求最佳效果的創作者，而動漫的創作可能也是 AI 生成視頻更務實的落地場景。

廣電傳媒參股 Pixverse 的新聞（上），Pixverse 與電影創作者協會合作的新聞（下）

就 Pixverse 和 Vidu 面向專業創作者的思路來看，其生成效果距離實現目標，可能還很遠。而可靈，藉助於快手的平台，以及營銷、短劇、電商等幾條自有業務線，真的有可能在目前已經取得一些成績的基礎上，越走越快。

字節，其實早在今年 5 月上線了 AI 生成視頻網站即夢，但從聲量上是弱於可靈，不論 AI 生成視頻是否能發展成爲一個獨立的營收業務線，但快手從自有業務和商業化出發，在時間點相對落的情況下迅速跟進，總算是「早了一回」。

參考文獻：

1、文生視頻大模型，短視頻的過彎點？

2、可靈讓快手支棱起來了？

3、快手版 Sora「可靈」開放測試：生成超 120s 視頻，更懂物理，複雜運動也能精準建模

4、快手可靈，能成爲中國 Sora 嗎？

5、合作快手，絲滑換臉。短劇出海的鏟子股——超訊通信今天又有什麼新技術？

6、揭秘快手可靈背後的「關鍵 7 人」

7、揭秘「中國版 Sora 」可靈：程一笑督戰，20人團隊三個月完成的快手版「大力出奇跡」

8、在海外，Sora 正在被可靈替代

9、「國產版 Sora」Vidu 全面開放，對比 Runway、可靈後我發現它是動畫特長生

声明：本內容僅用作提供資訊及教育之目的，不構成對任何特定投資或投資策略的推薦或認可。更多信息

这一次，“大力出奇迹”的是快手

這一次，「大力出奇跡」的是快手

風險及免責聲明

聲明