主要科技企業已經跟上這股潮流。微軟在2024年初推出的Phi-4模型採用了融合實際數據和合成數據的混合方法。谷歌的新Gemma模型也利用合成數據,大型科技公司採用合成數據的舉措證明了其實用性和有效性。
值得注意的是,在最新高性能AI模型的開發中,合成數據發揮着重要作用。Anthropic的Claude 3.5 Sonnet通過利用合成數據實現了部分出色性能。此外,Meta在最新Llama系列的微調中積極運用AI生成數據。這些案例表明了合成數據不僅僅是補充手段,而是最先進AI模型開發中的重要組成部分。
合成數據的應用在技術層面也展示出有趣的進展。正如Elon Musk所提到的,AI通過自我學習過程生成的數據進行評估,並循環利用於進一步學習的方法正在逐漸確立。這表明人工智能生成自身的學習素材,並在評估和篩選中不斷演化,提示了新的發展模式的出現。