中文简体
返回
下载
登录后咨询在线客服
回到顶部

人工智能行业面临的 “数据枯竭” 问题——埃隆·马斯克也表示担忧

埃隆·马斯克解释说,我们已经学会了人工智能训练数据 (埃隆·马斯克同意人工智能训练数据已经用尽)太平洋标准时间 2025 年 1 月 8 日晚上 8:01
很明显,大规模语言模型(LLM)开发所需的学习数据在2023年实际上已经用尽。作为人工智能公司XAI首席执行官的X(前推特)的埃隆·马斯克表示,“人工智能培训基本上已经耗尽了人类的全部知识”,并指出了该行业面临的严重问题。
数据耗尽的当前状态
在2025年初在X(前身为推特)上发布的直播中,埃隆·马斯克表达了这样的观点,即在人工智能训练中,人类的全部知识已经耗尽。具体而言,假设将在2024年达到这一临界点,并提出了人工智能发展的新问题。这一说法在业界引起了极大的反响,这不仅是因为xAI的经理职位,而且根据作为OpenAI联合创始人的经验,也是一个重要的指标。
OpenAI前首席科学家伊利亚·苏茨克弗的独立观察进一步强化了这种观点的重要性。苏茨克弗先生在2024/12年度举行的机器学习领域国际会议NeurIPS上提出了 “峰值数据” 的概念。这种表达方式与石油工业中 “石油峰值” 的概念进行了比较,它表明可以使用的高质量学习数据已经达到顶峰,未来将呈下降趋势。
现代人工智能开发,尤其是大规模语言模型(LLM)学习过程,需要互联网上存在的大量文本数据。这些模型使用了人类创建的所有形式的文本数据,例如网页、书籍、学术论文、社交媒体帖子等,作为学习材料。但是,顶级行业领导者已经认识到,高质量数据,尤其是包含专业知识和学术内容的数据,存在明显的局限性。
这种情况表明了当前人工智能开发方法的局限性,同时也表明了该行业的转折点。在传统方法中,提高模型性能主要依赖于学习数据的定量扩展。但是,现有数据的枯竭表明,这种战略是不可持续的。一个特别的问题是专业领域和新兴科学技术领域缺乏高质量的数据。由于这些领域中最初存在的文档和数据的绝对数量是有限的,因此人工智能开发人员被迫陷入被迫寻找新方法的境地。
此外,数据枯竭不仅是一个定量问题,而且还提出了质量问题。互联网内容中还包含许多错误信息和低质量的内容,如果将这些信息排除在外,实际可以使用的高质量数据就会变得更加有限。这种情况是一个严重的局限性,尤其是在科学、技术和专业领域需要准确性的人工智能模型开发中。
迁移到合成数据
人工智能行业正在如火如荼地利用合成数据来解决现实世界中缺乏数据的问题。合成数据表示人工智能模型本身生成的学习数据,这是一种不依赖于传统人类创建的内容的新方法。研究公司Gartner预测,到2024年,人工智能项目中使用的数据中有60%实际上将是综合生成的,而且这种转型的规模和速度正在以超出行业预期的速度发展。
大型科技公司已经开始走上这一趋势。微软于2024年初开源的Pi-4模型采用混合方法,将现实世界的数据与合成数据相结合。同样,谷歌的新Gemma模型也利用合成数据,主要科技公司采用合成数据证实了其实用性和有效性。
值得注意的是,合成数据在最新高性能人工智能模型的开发中也起着重要作用。Anthropic 的 Claude 3.5 十四行诗利用合成数据实现了部分出色表现。此外,Meta 正在积极利用人工智能生成的数据来微调最新的 Llama 系列。这些例子表明,合成数据不仅是一种补充手段,而且是尖端人工智能模型开发的重要元素。
从技术角度来看,合成数据的使用也显示出有趣的进展。正如埃隆·马斯克所说,正在建立一种循环方法,通过自学过程对人工智能生成的数据进行评估,并用于进一步学习。这表明出现了一种新的开发模式,在这种模式中,人工智能会生成自己的学习材料,并在评估和选择这些材料的同时不断发展。
这种方法的创新之处还在于它使控制数据的质量和多样性成为可能。从理论上讲,传统现实世界数据不可避免的噪声和偏差是可以控制的。此外,由于可以根据需要生成特定领域和情况的数据,因此专业人工智能模型的开发可能会变得更加高效。以人工智能公司Writer为例,主要使用合成数据开发的Palmyra X004模型的开发成本保持在70万美元。与相同规模的OpenAI模型的估计开发成本为460万美元相比,这已大大降低。
但是,这种过渡也存在技术问题。合成数据的质量控制,确保生成过程的透明度,最重要的是,验证生成数据的可靠性已成为重要问题。特别是,需要仔细考虑使用人工智能生成的数据训练另一个人工智能的周期性过程会放大意想不到的偏见和错误的可能性。
特别是,研究人员指出了使用合成数据导致 “模型崩溃” 的风险。这是指模型创造力下降、偏差增强,最终功能严重受损的现象。特别是,有人担心,合成数据可能会放大现有的偏见和局限性。
此外,从法律和伦理的角度来看,在使用合成数据方面出现了新的问题。需要制定与传统数据使用不同的新法律框架,例如版权问题、数据所有权和生成数据的责任。这些问题已成为业界在全面利用合成数据时应考虑的重要考虑因素。
免责声明:社区由Moomoo Technologies Inc.提供,仅用于教育目的。 更多信息
8
+0
原文
举报
浏览 3464
评论
登录发表评论
    小学5年生のネコのピンハネの頭脳で、ウェーブのパターン分析で継続的なシナリオ予想。経済学・地政学・法学。
    4730粉丝
    2关注
    4.2万来访
    关注
    热议
    美股
    热门讨论
    特朗普2.0时代倒计时!全球股市的下一个风口?
    特朗普即将重返政治舞台!特朗普提出的“美国优先”关税政策、加密货币政策以及对科技行业的影响,已成为市场关注的焦点。在此背景下,crypto、Tesla、AI板块的未来走势值得关注。 🎙️️讨论: 1. 加密货币政策能否利好crypto? 2. 关税政策能否利好中概等海外资产? 展开