中文繁體
返回
下載
登入後諮詢在線客服
回到頂部

AI行業面臨的「數據枯竭」問題- Elon Musk先生也表示擔憂

Elon Musk同意我們已經用盡了AI訓練數據 (伊隆·馬斯克認爲AI訓練數據已枯竭)2025年1月8日下午8時1分(太平洋標準時間)
2023年實際上AI巨型語言模型(LLM)開發所需的學習數據已經枯竭。X(原Twitter)的Elon Musk先生作爲AI公司xAI的CEO表示,「基本上人類的知識總體在AI訓練中已經用盡」,指出了行業面臨的嚴重問題。
數據枯竭的現狀
Elon Musk先生在2025年初期通過X(前Twitter)直播中表示,人類的知識總量在AI訓練中已經用盡,具體來說,認爲這個臨界點在2024年內達到,提出了AI開發面臨的新挑戰。這一言論不僅具有xAI的首席執行官身份,還基於OpenAI聯合創始人的經驗,作爲一種有重量的指出,在行業中引起了巨大反響。
這一觀點的重要性得到了OpenAI前首席科學家Ilya Sutskever先生獨立觀察的進一步加強。Sutskever先生於2024年12月在機器學習領域的國際會議NeurIPS提出了「數據峯值」的概念。這類似於石油行業中「石油峯值」的概念,表明可用的高質量學習數據已經達到頂峯,並暗示將來可能會趨於減少。
現代AI開發,特別是大規模語言模型(LLM)的學習過程需要大量存在於互聯網上的文本數據。這些模型一直將網頁、書籍、學術論文、社交媒體帖子等人類創造的各種文本數據作爲學習材料。然而,質量高的數據,特別是包含專業知識和學術內容的數據存在明顯的極限,行業的領導人開始意識到這一點。
這種情況不僅顯示了目前AI開發方法的侷限性,同時也暗示了作爲產業的轉折點。傳統方法中,模型性能的提升主要依賴於學習數據量的增加。然而,可用數據的匱乏表明這一策略是不可持續的。尤其令人擔憂的是,在專業領域和新興科學技術領域缺乏高質量數據。在這些領域,由於本來就存在的文檔和數據數量有限,AI開發人員被迫尋找新途徑。
此外,數據的枯竭不僅是數量上的問題,還提出了質量上的挑戰。互聯網上的內容中包含大量錯誤信息和低質量內容,剔除這些內容後,實際可用的高質量數據進一步受限。這種局面,尤其是在科學技術和專業領域要求準確性的AI模型開發領域,成爲嚴重製約。
轉向合成數據
AI行業正迎來合成數據的使用作爲對現實世界數據匱乏的解決方案,合成數據是指AI模型自動生成的學習數據,是不依賴傳統人類創作內容的新方法。調查公司Gartner的預測顯示,到2024年,用於AI項目的數據中有60%實際上會是合成生成的,這種轉變的規模和速度超出了行業的預期。
主要科技企業已經跟上這股潮流。微軟在2024年初推出的Phi-4模型採用了融合實際數據和合成數據的混合方法。谷歌的新Gemma模型也利用合成數據,大型科技公司採用合成數據的舉措證明了其實用性和有效性。
值得注意的是,在最新高性能AI模型的開發中,合成數據發揮着重要作用。Anthropic的Claude 3.5 Sonnet通過利用合成數據實現了部分出色性能。此外,Meta在最新Llama系列的微調中積極運用AI生成數據。這些案例表明了合成數據不僅僅是補充手段,而是最先進AI模型開發中的重要組成部分。
合成數據的應用在技術層面也展示出有趣的進展。正如Elon Musk所提到的,AI通過自我學習過程生成的數據進行評估,並循環利用於進一步學習的方法正在逐漸確立。這表明人工智能生成自身的學習素材,並在評估和篩選中不斷演化,提示了新的發展模式的出現。
這種方法的創新性也體現在能夠控制數據質量和多樣性的方面。合成數據可以從理論上控制實際世界數據中不可避免的噪音和偏見。此外,根據需要生成特定領域或情境的數據,可能使專業AI模型的開發變得更加高效。以AI企業Writer的Palmyra X 004模型爲例,主要開發合成數據,其開發成本僅爲70萬美元。相比之下,同等規模OpenAI模型的估計開發成本爲460萬美元,實現了大幅度的削減。
然而,這種轉變也存在技術挑戰。合成數據的質量管理、生成過程的透明度保障,以及生成數據的可靠性驗證變得至關重要。特別是,利用AI生成的數據來訓練另一個AI的循環過程可能會增加意外的偏見和錯誤的可能性,需要謹慎審慎。
研究人員特別指出,使用合成數據存在「模型崩壞」的風險。這指的是模型的創造性下降,偏見加劇,最終導致功能嚴重受損的現象。特別是,現有的偏見和限制可能通過合成數據而被增強,這是令人擔憂的。
此外,從法律和倫理角度看,使用合成數據也帶來了新的審視挑戰。著作權問題、數據所有權以及生成數據的責任歸屬等問題需要建立新的法律框架。這些問題成爲行業在全面利用合成數據方面需要應對的重要考慮事項。
免責聲明:社區由Moomoo Technologies Inc.提供,僅用於教育目的。 更多信息
8
+0
原文
舉報
瀏覽 3443
評論
登錄發表評論
    小学5年生のネコのピンハネの頭脳で、ウェーブのパターン分析で継続的なシナリオ予想。経済学・地政学・法学。
    4709粉絲
    2關注
    4.1萬來訪
    關注
    熱議
    美股
    熱門討論
    特朗普2.0時代倒計時!全球股市的下一個風口?
    特朗普即將重返政治舞台!他提出的“美國優先”關稅政策、加密貨幣政策以及對科技行業的影響,已成為市場關注的焦點。在此背景下,加密貨幣、特斯拉、AI板塊的未來走勢值得關注。 🎙️️討論: 1. 加密貨幣政策能否利好crypto? 2. 關稅政策能否利好中概等海外資產? 展开