騰訊版「Sora」加入文生視頻戰場

華爾街見聞 · 12/04 10:04

仍在探索初期。

作者 | 黄昱

编辑 | 周智宇

年初，“文生视频”模型Sora的出现，掀起了全球竞逐AI视频生成的热潮；近10个月过去，Sora迟迟没有对外开放，而作为后来者的腾讯混元，抢先加入了这一战场。

12月3日，腾讯混元大模型正式上线视频生成能力，C端用户通过腾讯元宝APP就可申请试用，企业客户通过腾讯云提供服务接入，目前API同步开放内测申请。

把文生视频摆上牌桌，这是继文生文、文生图、3D生成之后，腾讯混元大模型的又一新里程碑。与此同时，腾讯开源该视频生成大模型，参数量130亿，是当前最大的视频开源模型。

据华尔街见闻了解，腾讯混元的视频生成几乎没有门槛，用户只需要输入一段文字描述，腾讯混元生成视频大模型就可以生成一段五秒的视频。

相较于Sora分钟级别以及一些“类Sora”产品10s的视频生成时长，腾讯混元的视频生成时长不太让人振奋。

在当日的媒体沟通会上，腾讯混元多模态生成技术负责人表示，视频时长不是技术问题，而是纯算力和数据问题，因为时间扩长一倍，它的算力是一个平方级的上升，所以不是很划算。

此外，他指出，大部分人用视频的情况下都是一个镜头接一个镜头，所以混元视频生成模型第一版先放5s时长的出来，优先满足大部分的需求。“未来如果大家有很多强烈需求，要做很长的一镜到底，我们再去做升级。”

腾讯混元生成视频目前主要呈现四大特点：写实画质、语义遵从、动态流畅、原生转场。

在技术路线上，腾讯混元视频生成模型选择了跟Sora类似的DiT架构，并在架构设计上进行多处升级，包括引入多模态大语言模型作为文本编码器、基于自研Scaling Law的全注意力DiT、自研3D VAE等。

腾讯混元多模态生成技术负责人指出，混元算是业内首个或者特别少数拿多模态大语言模型来做文本编码器的视频生成模型。业界现在更多还是选用T5模型和CLIP模型作为文本编码器。

之所以这样选择，是因为腾讯混元是看中了这条技术路线的三大优点，包括增强复杂文本的理解能力、原生图文对齐能力以及支持系统提示词。

此外，腾讯混元多模态生成技术负责人提到，在做GPT之前，OpenAI花了很多心思去验证Scaling Law（用更多的数据训练更大的模型）在语言模型中的有效性，但在视频生成领域学术界或业界没有把Scaling Law是否有效公开出来。

在此背景下，腾讯混元团队自己把图像、视频生成的Scaling Law验证了一边，最终得出结论，图像DiT有，视频基于图像DiT做二阶段的训练一样是有Scaling Law的性质在的。

“所以我们首版腾讯混元视频生成模型是基于这套比较严格的Scaling Law的推论，做了一个130亿的模型。”腾讯混元多模态生成技术负责人说道。

与此同时，腾讯混元也在疾行视频生成生态模型的探索，包括图生视频模型、视频配音模型、驱动2D照片数字人等。

腾讯混元多模态生成技术负责人指出，相较于文生视频，图生视频模型在可用性的推进上进展会更快，可能在不到一个月之内混元会发布最新进展。

自去两年前ChatGPT掀起的AI大模型热潮以来，大语言模型技术路径已收敛，而视频生成模型仍处于探索期。

东方证券分析师指出，在OpenAI的技术方向引领下，目前语言模型的技术路径基本就是GPT这一条路。而多模态技术方面，目前没有一家公司处于绝对领先地位，技术路径仍存在探索的可能。

腾讯混元多模态生成技术负责人也表示，文生视频整体都处于不太成熟的阶段，综合合格率都不高。

作为多模态生成中难度最大的领域，视频生成对算力、数据等资源要求较高，目前相较于文本、图像成熟度更低，同时面临商业化、产品化进展较慢的挑战。

OpenAI也宣布由于算力短缺而推迟Sora的更新，导致至今尚未对外开放。

尽管如此，为了更快抢占市场，去年十一月以来，视频生成领域的成果密集落地。

截至目前，国内外不少大模型厂商都实现了类Sora产品落地，包括国内MiniMax、智谱、字节、快手、爱诗科技等，海外Runway、Pika、Luma。不过，由于算力和技术等因素，视频生成时长一般在10s以内。

为了推进商业化，大模型厂商必须找到更多视频生成的应用场景。这次，腾讯给出的思路是：混元视频生成模型画面具备高质感，可用于工业级商业场景例如广告宣传、动画制作、创意视频生成等场景。

视频AI是多模态领域的最后一环，也是更容易催生爆款应用的领域，但如何在算力投入与商业化之间缺的平衡，依然是目前“类Sora”的视频生成模型们必须解决的一大难题。

仍在探索初期。

作者 | 黃昱

編輯 | 周智宇

年初，「文生視頻」模型Sora的出現，掀起了全球競逐AI視頻生成的熱潮；近10個月過去，Sora遲遲沒有對外開放，而作爲後來者的騰訊混元，搶先加入了這一戰場。

12月3日，騰訊混元大模型正式上線視頻生成能力，C端用戶通過騰訊元寶APP就可申請試用，企業客戶通過騰訊雲提供服務接入，目前API同步開放內測申請。

把文生視頻擺上牌桌，這是繼文生文、文生圖、3D生成之後，騰訊混元大模型的又一新里程碑。與此同時，騰訊開源該視頻生成大模型，參數量130億，是當前最大的視頻開源模型。

據華爾街見聞了解，騰訊混元的視頻生成幾乎沒有門檻，用戶只需要輸入一段文字描述，騰訊混元生成視頻大模型就可以生成一段五秒的視頻。

相較於Sora分鐘級別以及一些「類Sora」產品10s的視頻生成時長，騰訊混元的視頻生成時長不太讓人振奮。

在當日的媒體溝通會上，騰訊混元多模態生成技術負責人表示，視頻時長不是技術問題，而是純算力和數據問題，因爲時間擴長一倍，它的算力是一個平方級的上升，所以不是很划算。

此外，他指出，大部分人用視頻的情況下都是一個鏡頭接一個鏡頭，所以混元視頻生成模型第一版先放5s時長的出來，優先滿足大部分的需求。「未來如果大家有很多強烈需求，要做很長的一鏡到底，我們再去做升級。」

騰訊混元生成視頻目前主要呈現四大特點：寫實畫質、語義遵從、動態流暢、原生轉場。

在技術路線上，騰訊混元視頻生成模型選擇了跟Sora類似的DiT架構，並在架構設計上進行多處升級，包括引入多模態大語言模型作爲文本編碼器、基於自研Scaling Law的全注意力DiT、自研3D VAE等。

騰訊混元多模態生成技術負責人指出，混元算是業內首個或者特別少數拿多模態大語言模型來做文本編碼器的視頻生成模型。業界現在更多還是選用T5模型和CLIP模型作爲文本編碼器。

之所以這樣選擇，是因爲騰訊混元是看中了這條技術路線的三大優點，包括增強複雜文本的理解能力、原生圖文對齊能力以及支持系統提示詞。

此外，騰訊混元多模態生成技術負責人提到，在做GPT之前，OpenAI花了很多心思去驗證Scaling Law（用更多的數據訓練更大的模型）在語言模型中的有效性，但在視頻生成領域學術界或業界沒有把Scaling Law是否有效公開出來。

在此背景下，騰訊混元團隊自己把圖像、視頻生成的Scaling Law驗證了一邊，最終得出結論，圖像DiT有，視頻基於圖像DiT做二階段的訓練一樣是有Scaling Law的性質在的。

「所以我們首版騰訊混元視頻生成模型是基於這套比較嚴格的Scaling Law的推論，做了一個130億的模型。」騰訊混元多模態生成技術負責人說道。

與此同時，騰訊混元也在疾行視頻生成生態模型的探索，包括圖生視頻模型、視頻配音模型、驅動2D照片數字人等。

騰訊混元多模態生成技術負責人指出，相較於文生視頻，圖生視頻模型在可用性的推進上進展會更快，可能在不到一個月之內混元會發布最新進展。

自去兩年前ChatGPT掀起的AI大模型熱潮以來，大語言模型技術路徑已收斂，而視頻生成模型仍處於探索期。

東方證券分析師指出，在OpenAI的技術方向引領下，目前語言模型的技術路徑基本就是GPT這一條路。而多模態技術方面，目前沒有一家公司處於絕對領先地位，技術路徑仍存在探索的可能。

騰訊混元多模態生成技術負責人也表示，文生視頻整體都處於不太成熟的階段，綜合合格率都不高。

作爲多模態生成中難度最大的領域，視頻生成對算力、數據等資源要求較高，目前相較於文本、圖像成熟度更低，同時面臨商業化、產品化進展較慢的挑戰。

OpenAI也宣佈由於算力短缺而推遲Sora的更新，導致至今尚未對外開放。

儘管如此，爲了更快搶佔市場，去年十一月以來，視頻生成領域的成果密集落地。

截至目前，國內外不少大模型廠商都實現了類Sora產品落地，包括國內MiniMax、智譜、字節、快手、愛詩科技等，海外Runway、Pika、Luma。不過，由於算力和技術等因素，視頻生成時長一般在10s以內。

爲了推進商業化，大模型廠商必須找到更多視頻生成的應用場景。這次，騰訊給出的思路是：混元視頻生成模型畫面具備高質感，可用於工業級商業場景例如廣告宣傳、動畫製作、創意視頻生成等場景。

視頻AI是多模態領域的最後一環，也是更容易催生爆款應用的領域，但如何在算力投入與商業化之間缺的平衡，依然是目前「類Sora」的視頻生成模型們必須解決的一大難題。

声明：本內容僅用作提供資訊及教育之目的，不構成對任何特定投資或投資策略的推薦或認可。更多信息

腾讯版“Sora”加入文生视频战场

騰訊版「Sora」加入文生視頻戰場

風險及免責聲明

聲明