大型科技公司已经开始走上这一趋势。微软于2024年初开源的Pi-4模型采用混合方法,将现实世界的数据与合成数据相结合。同样,谷歌的新Gemma模型也利用合成数据,主要科技公司采用合成数据证实了其实用性和有效性。
值得注意的是,合成数据在最新高性能人工智能模型的开发中也起着重要作用。Anthropic 的 Claude 3.5 十四行诗利用合成数据实现了部分出色表现。此外,Meta 正在积极利用人工智能生成的数据来微调最新的 Llama 系列。这些例子表明,合成数据不仅是一种补充手段,而且是尖端人工智能模型开发的重要元素。
从技术角度来看,合成数据的使用也显示出有趣的进展。正如埃隆·马斯克所说,正在建立一种循环方法,通过自学过程对人工智能生成的数据进行评估,并用于进一步学习。这表明出现了一种新的开发模式,在这种模式中,人工智能会生成自己的学习材料,并在评估和选择这些材料的同时不断发展。