share_log

开源大模型的ChatGPT时刻?备受期待的Llama 3 405B即将发布

開源大模型的ChatGPT時刻?備受期待的Llama 3 405B即將發佈

華爾街見聞 ·  07/22 23:46

分析認爲,Llama 3 405B不僅僅是人工智能能力的又一次提升,對於開源 AI 來說,“這是一個潛在的 ChatGPT 時刻”。在基準測試中,Meta Llama 3.1 在GSM8K、Hellaswag等多項測試中均優於 GPT-4o。

千呼萬喚始出來,原定於23日發佈的Llama 3 405B就要來了。

作爲Llama 3系列中的頂配,405B版本擁有4050億個參數,是迄今爲止最大的開源模型之一。

昨夜凌晨,META突發Llama 3.1-405B評測數據的泄漏事件,有網友預計可能還會同時發佈一個Llama 3.1-70B版本,因爲“(模型提前泄露)是META的老傳統了,去年的Llama模型就幹過一次。”

有分析認爲,Llama 3 405B不僅僅是人工智能能力的又一次提升,對於開源AI 來說,“這是一個潛在的ChatGPT時刻”,其中最先進的人工智能真正實現民主化並直接交到開發人員手中。

對即將到來的 Llama 3 405B 公告的三個預測

有分析人士從數據質量、模型生態系統、API解決方案三個角度,預測了即將到來的Llama 3 405B公告中的亮點。

首先,Llama 3 405B或許會徹底改變專用模型的數據質量。

對於專注於構建專業AI模型的開發人員來說,他們面臨的長期挑戰是獲取高質量的訓練數據。較小的專家模型(1-10B 個參數)通常利用蒸餾技術,利用較大模型的輸出來增強其訓練數據集。然而,使用來自OpenAI等閉源巨頭的此類數據受到嚴格限制,限制了商業應用。

Llama 3 405B應運而生。作爲一款與專有模型實力相媲美的開源巨頭,它爲開發人員創建豐富、不受限制的數據集提供了新的基礎。這意味着開發人員可以自由使用Llama 3 405B的蒸餾輸出來訓練小衆模型,從而大大加快專業領域的創新和部署週期。預計高性能、經過微調的模型的開發將激增,這些模型既強大又符合開源道德規範。

其次,Llama 3 405B將形成新的模型生態系統:從基礎模型到專家組合

Llama 3 405B的推出可能會重新定義AI系統的架構。該模型的龐大規模(4050 億個參數)可能意味着一種一刀切的解決方案,但真正的力量在於它與分層模型系統的集成。這種方法對於使用不同規模AI的開發人員來說尤其具有共鳴。

預計會轉向更具動態的模型生態系統,其中Llama 3 405B充當骨幹,由小型和中型模型提供支持。這些系統可能會採用推測解碼等技術,其中不太複雜的模型處理大部分處理,僅在必要時調用405B模型進行驗證和糾錯。這不僅可以最大限度地提高效率,而且還爲優化實時應用程序中的計算資源和響應時間開闢了新途徑,尤其是在針對這些任務優化的SambaNova RDU上運行時。

最後,Llama 3 405B有最高效 API 的競爭

能力越大,責任越大——對於Llama 3 405B而言,部署是一項重大挑戰。開發人員和組織需要謹慎應對模型的複雜性和運營需求。AI雲提供商之間將展開競爭,以提供部署Llama 3 405B最高效、最具成本效益的API解決方案。

這種情況爲開發人員提供了一個獨特的機會,可以與不同的平台互動,比較各種API如何處理如此龐大的模型。這個領域的贏家將是那些能夠提供API的人,這些API不僅可以有效地管理計算負載,而且不會犧牲模型的準確性或不成比例地增加碳足跡。

總之,Llama 3 405B不僅僅是AI武器庫中的又一個工具;更是向着開放、可擴展和高效的 AI 開發的根本轉變。分析認爲,無論是在微調小衆模型、構建複雜的AI系統還是優化部署策略,Llama 3 405B的到來都將爲用戶打開新的視野。

網友們怎麼看?

網友在LocalLLaMA子Reddit板塊中發帖,分享了4050億參數的Meta Llama 3.1信息,從該AI模型在幾個關鍵AI基準測試的結果來看,其性能超越目前的領先者,即OpenAI的GPT-4o,這標誌着開源模型可能首次擊敗目前最先進的閉源LLM模型。

如基準測試所示,Meta Llama 3.1在 GSM8K、Hellaswag、boolq、MMLU-humanities、MMLU-other、MMLU-stem和 winograd等多項測試中均優於 GPT-4o,但是,它在 HumanEval和 MMLU-social sciences方面卻落後於 GPT-4o。

賓夕法尼亞大學沃頓商學院副教授伊桑·莫利克(Ethan Mollick)寫道:

如果這些統計數據屬實,那麼可以說頂級 Al 模型將在本週開始免費向所有人開放。

全球每個國家的政府、組織和公司都可以像其他人一樣使用相同的人工智能功能。這會很有趣。

有網友總結了Llama 3.1模型的幾個亮點:

模型使用了公開來源的15T+tokens進行訓練,預訓練數據截止日期爲2023年12月;

微調數據包括公開可用的指令微調數據集(與Llama 3不同)和1500萬個合成樣本;

模型支持多語言,包括英語、法語、德語、印地語、意大利語、葡萄牙語、西班牙語和泰語。

有網友表示,這是首次開源模型超越了GPT4o和Claude Sonnet 3.5等閉源模型,在多個benchmark上達到SOTA。

声明:本內容僅用作提供資訊及教育之目的,不構成對任何特定投資或投資策略的推薦或認可。 更多信息
    搶先評論