微软Build大会：在人工智能时代释放创新的力量

浏览 9万内容 27

Meltyy 参与了话题 · 2023/05/30 16:39

有人最终搞清了GPT的状态！

$微软 (MSFT.US)$ 观看Andrej Karpathy今天的演示，并记录推特笔记，一起来吧！
Andrej Karpathy从几个阶段开始:
1 - 预训练 - 数月 x 数千个GPU
2、3、4 - 微调阶段，需时数小时或数天

有人最终搞清了GPT的状态！

在进行预训练之前，需要进行2个准备步骤。
数据收集 - 从不同来源获得大量数据（这里是Andrej LLaMa混合）
Tokenization - 在单词和整数之间进行无损转换。

有人最终搞清了GPT的状态！

有人最终搞清了GPT的状态！

“你不能仅凭模型包含的参数数量来评判模型的性能”
LLaMa在1-1.4万亿个令牌上进行了训练，而GPt-3在3000亿个令牌上进行了训练。

有人最终搞清了GPT的状态！

很抱歉，我没有足够的时间来详细介绍transformers是如何工作的。一定要爱上Andrej对教育的渴望！
说实话，我无法用一条推文总结这个。

有人最终搞清了GPT的状态！

这是一个来自NYt的例子，对Shakespeare进行了chatgpt的训练模型。
你可以看到，在许多迭代后，语言模型在预测莎士比亚文本中下一个词会出现方面持续改进。

有人最终搞清了GPT的状态！

好吧，在这里有一个非常粗略的释义，但是每次迭代时，训练模型都试图预测在绿色标记后面会出现哪个标记/整数，训练曲线概述了它相对于原始文本有多好地预测了下一个标记。

在chatgpt-2的时候，行业板块注意到，如果我们以特定方式构建提示，并提供几个例子（Few Shot提示），那么基础模型将被“欺骗”，自动完成我们在提示中提供的指令。

有人最终搞清了GPT的状态！

Andrej多次重复这一点，现在可能是从LLaMa开始学习的最好的开源模型。
$Meta Platforms (META.US)$ 人工智能（由于OAI没有发布有关GPt-4的任何信息）
GPt-2 - 发布 + 权重
GPt-3 - 基础模型可通过API获得（达芬奇）
GPt-4 - 无法通过API获得

有人最终搞清了GPT的状态！

基础模型不是助手，在基本意义上它们不会“做你要求的事”。它们只是自动补全文本。
但如果你用Few-shot提示来构建你的文档，它将“欺骗”基础模型，让它认为自己在自动补全人工智能和人类之间的对话

有人最终搞清了GPT的状态！

但这个技巧还不够。所以我们进入第二步。
监督微调。
收集小而高质量（类似于人工合同商）的指令数据集
然后使用交换的数据集继续训练模型，我们得到了SFt（有监督微调）模型。

有人最终搞清了GPT的状态！

SFt模型……还不太好，肯定不及chatgpt的质量。所以训练还在继续。
使用SFt模型生成问题输出，用户对比并评估3个版本，排名最好的，然后模型根据用户的选择重新训练。

有人最终搞清了GPT的状态！

这是通过对更好的回答进行加权来完成的。例如，当您点击chatgpt中的“回复”按钮或选择重新生成回答时，这些信号对于RLHF非常有价值。或者在chatgpt中，当你点击“回复”按钮或选择重新生成回答时，这些信号对于RLHF非常有价值。

Andrej正在探讨为什么RLHF模型在“感觉”上更好的可能原因，至少在成为一名好助理方面。
如果还有人在阅读的话，我会给你们参考一下这个视频

有趣的是，Andrej谈到RLHF并不是对基础模型的严格改进。RLHF模型的熵较低，因此可能较不"富有创造性"。
因此，基础模型仍然更好，因为它们仍然是混沌的。

有人最终搞清了GPT的状态！

这是基于伯克利的人们根据排名所做的模型的当前状态。
有趣的是，Karpathy说GPt-4是"远远"最好的，但图表上是1274对Claude的1224 ELO评分，似乎并不"远远"。

有人最终搞清了GPT的状态！

RLHF模型的排名更高，前3名都是RLHF模型，剩下的（据他所知）是SFt模型。
喔呼！我们已经完成了演讲的前半部分。接下来是将这些模型应用于问题的部分。

有人最终搞清了GPT的状态！

Andrej随后深入探讨了人类撰写陈述的过程与机器生成陈述的差异。
加州的人口是阿拉斯加的53倍
人类大脑经过循环、事实核对、计算和反思

有人最终搞清了GPT的状态！

chatgpt试图自动完成时，chatgpt内部没有对话
它每个记号的"计算"量相同，无论记号是它需要查找的数字还是它需要核对的事实，但它们拥有广阔的知识和完美的记忆（上下文窗口)

有人最终搞清了GPT的状态！

像"思维链"这样的方法提供了"更多的记号"或"更多的思考时间"，通过询问"让我们一步一步地思考"
这将使模型展示它的工作，这将为它提供"思考时间"以得出更好的答案

有人最终搞清了GPT的状态！

现在安德烈正在采用自省作为一种方法
模型可能会因为无法取消已经采样的记号而"卡住"
想象一下自己说错了一个词，中途停下来说：“让我重新表达一下”，然后重新开始句子

模型没有那种奢侈，所以它们可能会陷入错误的道路……
但像自我反思这样的例子表明，要求模型审查其输出、评判其输出，可以给模型提供“第二次机会”或重新理解输出的逻辑，从而提高结果！

有人最终搞清了GPT的状态！

我喜欢它，安德烈使用我们思考的快与慢-系统1和系统2的模型来Llm。
这些技术，如Cot、自我反思和最近发布的思维之树，是我们构建系统2、更缓慢、更深思熟虑的思维的尝试。

类比。

有人最终搞清了GPT的状态！

$C3.ai (AI.US)$ $谷歌-A (GOOGL.US)$ $特斯拉 (TSLA.US)$ $纳斯达克综合指数 (.IXIC.US)$ $标普500ETF-SPDR (SPY.US)$

免责声明：社区由Moomoo Technologies Inc.提供，仅用于教育目的。更多信息

+0

7

原文

举报

浏览 4.5万

评论

登录发表评论

挣钱养猫猫😺

2183粉丝

24关注

1.8万来访

关注