share_log

谷歌盯上游戏开发!世界首个神经网络驱动 AI 游戏引擎让全行业集体进入生成时代

谷歌盯上游戲開發!世界首個神經網絡驅動 AI 遊戲引擎讓全行業集體進入生成時代

遊戲陀螺 ·  08/31 09:58

沒想到連傳統遊戲引擎也要被優化掉了。

近日,谷歌研究人員宣佈在 AI 領域取得了一個重要的里程碑,只需依靠神經網絡就可以爲經典射擊遊戲《毀滅戰士》生成實時遊戲玩法,全程無需使用傳統的遊戲引擎。

來源:谷歌

根據研究人員的說法,這個名爲 GameNGen 的系統是世界上第一個完全由神經網絡驅動的 AI 遊戲引擎,可以在單芯片上以每秒 20 幀的速度生成可玩的遊戲玩法,每一幀都由擴散模型預測。

實時生成遊戲已成現實!

GameNGen 能在單張 TPU 上以超過 20 幀/秒的速度實時模擬遊戲

2024 年 8 月 27 日,谷歌發佈了一篇由谷歌研究院研究員 Dani Valevski、谷歌研究院工程師 Yaniv Leviathan、特拉維夫大學 Moab Arar、谷歌 DeepMind 工程師 Shlomi Fruchter 聯合發表的論文,詳細介紹了新模型 GameNGen 的功能。

在這篇名爲「Diffusion models are real-time game engines(擴散模型是實時遊戲引擎)」的研究論文中,研究人員解釋了 GameNGen 的工作原理,系統使用了 2022 年發佈的圖像合成擴散模型 Stable Diffusion 1.4 的修改版本,用來生成 AI 圖像。

GameNGen 的開發涉及兩個階段的訓練過程。

首先,研究人員在數據收集與預處理階段訓練了一個強化學習(RL)代理與遊戲環境交互,記錄代理的行動和觀察結果,形成訓練數據集,即先在《毀滅戰士》 遊戲中記錄遊戲過程並創建自動生成的訓練數據集。

接着,研究人員再使用生成的數據集訓練後續的擴散模型。

通過使用預訓練的 Stable Diffusion v1.4 模型作爲基礎,去掉文本條件後將代理的行動嵌入到單個標記中,並將觀察結果編碼到潛在空間中,並通過噪聲增強技術緩解自回歸生成過程中的漂移問題,確保長時間序列生成的穩定性。

據介紹,GameNGen 能夠在單張 TPU 上以超過 20 幀/秒的速度實時模擬遊戲,生成的視頻質量與原始遊戲相當。而在接受《毀滅戰士》大量動作鏡頭訓練後,GameNGen 能夠根據過去的幀和行動序列預測下一幀,實現實時交互。

經過實驗,研究人員確認,在長軌跡上,模型模擬質量達到了與原始遊戲相當的圖像質量,對於短軌跡,人類評分者只能略微區分模擬和實際遊戲的片段。

而在人類評估中,研究人員提供 130 個隨機短片段給人類評分者,每個片段的長度分別爲 1.6 秒和 3.2 秒,包括 GameNGen 生成的模擬視頻和實際遊戲視頻,人類評分者的任務需要識別每個片段是來自實際遊戲還是模擬視頻。

最終結果表明,在識別準確率上,對於 1.6 秒的片段,評分者選擇實際遊戲的準確率爲 58%;對於 3.2 秒的片段,評分者選擇實際遊戲的準確率爲 60%。

評分者在區分模擬視頻和實際遊戲視頻時,表現僅略優於隨機猜測(50%),表明生成的模擬視頻與實際遊戲視頻非常相似,這驗證了 GameNGen 生成的模擬視頻在視覺質量和遊戲行爲上具有高保真度。

然而,GameNGen 也並非完美無瑕,研究人員發現,使用穩定擴散會引入一些圖形故障,穩定擴散 v1.4 的預訓練自動編碼器會將 8×8 像素塊壓縮爲 4 個潛在通道,這會使得模型在預測遊戲幀時出現細節錯誤。

此外,如果確保遊戲視頻質量在時間的推移中保持一致也非常困難。

「交互式世界模擬不僅僅是非常快速的視頻生成,對整個生成過程中可用的輸入動作流進行約束打破了現有擴散模型架構的一些假設,自回歸可能會導致不穩定情況出現,讓生成世界的質量迅速下降。」

這意味着持續的自回歸圖像合成可能會出現視覺故障,生成幀中的小錯誤會隨着時間的推移而累積、複合,導致虛擬世界隨着生成幀的增加而出現更多故障。

爲了解決這個問題,研究人員有意在訓練數據中添加了不同級別的隨機噪聲,並教會模型糾正這種噪聲,這有助於模型在較長時間內保持生成世界的質量。

值得注意的是,雖然 GameNGen 證明了 AI 遊戲引擎可以被用於遊戲生成領域,但該方法還存在着一個根本性的問題。

其他基於 Transformer 的模型一樣,GameNGen 更擅長模仿並創建合理的輸出,這意味着模型目前只能「複製」已經存在的遊戲,而無法在遊戲行業產生真正的創新。

此外,由於模型只能訪問約 3 秒的歷史信息,這對遊戲邏輯的持久性提出了挑戰。

儘管模型能夠通過屏幕像素(如彈藥和生命值計數、可用武器等)維持大部分遊戲狀態,但仍需找到更爲根本的解決方法。

同時,如果該技術在未來被廣泛採用來渲染視頻遊戲圖形,那麼對於實時運行類似模型的計算能力會提出更高要求。

不過好在,研究人員也表示將在其他遊戲或更廣泛的交互軟件系統上測試 GameNGen,並探索更復雜的架構以緩解當前的諸多限制,進一步優化技術以提高幀率和在消費級硬件上的運行。

隨着 AI 模型的不斷進步,我們將看到越來越複雜的神經遊戲引擎實時生成大型、一致的交互式世界,並從根本上改變視頻遊戲的製作方式。

全球已有 62%的遊戲工作室在開發過程中使用 AI 技術

可以看到,GameNGen 展示了 AI 可以作爲遊戲引擎的基礎,通過神經模型自動生成遊戲內容,降低了開發成本,這種新範式可能會顯著降低遊戲開發的難度,使得更多人能夠參與到遊戲創作中。

研究人員在論文中聲稱,「如今,視頻遊戲是由人類編程的。」

通過新的 AI 技術,未來的視頻遊戲可能不用再使用傳統技術繪製圖形視頻幀,而是通過文本描述或示例圖像創建,人們可以直接將一組靜止圖像轉換爲新的可玩遊戲或角色,並不用依賴過去的編碼技巧。

而實際上,使用神經渲染進行實時視頻遊戲合成並不是一個全新的想法。Nvidia 首席執行官黃仁勳在 3 月份的一次活動中預測大多數視頻遊戲圖形可以在 5-10 年內由人工智能實時生成。

在黃仁勳看來,AI 生成遊戲並非遙不可及。

當時他的原話是:「即使 AI 無法僅通過簡單提示就從 0 開始創作出像《賽博朋克 2077》這樣的遊戲,但這項技術在生成模型、視頻等方面將發揮重要作用。」誰能想到才過去幾個月,AI 遊戲引擎從 0 到 1 製作遊戲就已成爲現實。

現如今的 GameNGen 也是建立在生成式 AI 領域此前打下的工作基礎之上,包括由 David Ha 和 Jürgen Schmidhuber 在 2018 年首次提出的 World Models 模型 、由英偉達和麻省理工學院等於 2020 年共同提出的 GameGAN 模型以及今年 3 月份的谷歌 Genie 。

其中,GameGAN 能夠生成新的遊戲關卡布局,甚至產生新的遊戲創意,加速遊戲開發過程。

GameGAN 模型通過觀看遊戲視頻和鍵盤操作學習遊戲的關鍵規則,在訓練過程中,GameGAN 可以學習如何渲染《吃豆人》遊戲中的迷宮形狀、小點和 Power Pellets 等靜態元素,以及移動元素如敵人的幽靈和 PAC-MAN 本身。

此外,與「世界模擬器」相關的研究也通常是諸如 Gen-3 Alpha、Sora 等視頻生成 AI 模型的研究方向。在 Sora 首次亮相期間,OpenAI 就展示了模擬 Minecraft 的 AI 生成器的演示視頻。

這在當時也引發了對「AI 是否會取代遊戲開發」的討論。

根據 Unity 在今年 3 月份公佈的一份報告顯示,越來越多的開發工作室正在採用 AI 工具來節省時間和效率,全球已有 62%的遊戲工作室在遊戲開發過程中的某個階段使用了 AI 技術。

其中,遊戲工作室對於 AI 的首要用途是改進角色動畫,其次是加快編寫代碼速度,然後才是是美術資產和關卡生成、文案寫作以及自動化遊戲測試。

AI 技術的普及爲遊戲行業帶來了首先是明顯的裁員現象,根據 GDC 的數據,有 35%的遊戲開發者在 2023 年中受到了裁員的影響。但也有業內人士表示,AI 的普及必然帶來部份傳統從業者的失業,只不過要說 AI 取代遊戲開發還爲時尚早。

國外電子遊戲外包服務提供商 keywords 曾經試圖僅靠生成式 AI 工具製作 2D 遊戲,並使用了 400 多種不同的工具嘗試觀察 AI 如何完成目標。

但最終,keywords 發現 AI 最終還是無法取代人類,「雖然 GenAI 可以簡化或加速某些流程,但只有通過該領域專家在創作過程中將 GenAI 作爲一種新的輔助工具,才能獲得所需的最佳結果和質量。」

因此,在目前遊戲開發從業者還不用擔心被 AI 完全取代,至少在 GameNGen 成爲完整體之前,我們還有很多討論「AI 介入藝術創作是否存在價值」的時間。

声明:本內容僅用作提供資訊及教育之目的,不構成對任何特定投資或投資策略的推薦或認可。 更多信息
    搶先評論