终于有人明确了 GPT 的状态!
$微软(MSFT.US$ 从今天开始看 Andrej Karpathy 的演讲,在推特上做笔记,一起来兜风吧:
安德烈·卡尔帕西从各个阶段开始:
1-预训练-几个月 x 数千个 GPU
2、3、4-需要数小时或数天的微调阶段
安德烈·卡尔帕西从各个阶段开始:
1-预训练-几个月 x 数千个 GPU
2、3、4-需要数小时或数天的微调阶段
![终于有人明确了 GPT 的状态!](https://ussnsimg.moomoo.com/feed_image/70042970/52ad3df785313bbd92fca556fd35c37b.png/bigmoo)
在进行预训练之前,有 2 个准备步骤。
数据收集-从不同的来源获取大量数据(这里是 Andrej LLaMa 混合物)
标记化-单词片段和整数之间的无损翻译。
数据收集-从不同的来源获取大量数据(这里是 Andrej LLaMa 混合物)
标记化-单词片段和整数之间的无损翻译。
![终于有人明确了 GPT 的状态!](https://ussnsimg.moomoo.com/feed_image/70042970/adba1c9051ac3b6bb2f9fbb2d4b9464f.jpg/bigmoo)
![终于有人明确了 GPT 的状态!](https://ussnsimg.moomoo.com/feed_image/70042970/a2e1fc15dd2036ea9a3d9c18597c8e82.jpg/bigmoo)
“你不应该仅凭模型包含的参数数量来判断模型的力量”
LLaMa 已经接受了 1-1.4 万亿个代币的训练,而在 GPT-3 中训练了 3000B 代币。
LLaMa 已经接受了 1-1.4 万亿个代币的训练,而在 GPT-3 中训练了 3000B 代币。
![终于有人明确了 GPT 的状态!](https://ussnsimg.moomoo.com/feed_image/70042970/f575e01816c738b1bf9b45efc29669ab.jpg/bigmoo)
“不幸的是,我没有足够的时间来研究变形金刚是如何工作的”
一定会喜欢 Andrej 对教学的渴望!
顺便说一句,我无法将其总结为一条推文。
顺便说一句,我无法将其总结为一条推文。
![终于有人明确了 GPT 的状态!](https://ussnsimg.moomoo.com/feed_image/70042970/f48b60f2d42338d188cd08ea3ed29d32.jpg/bigmoo)
以下是《纽约时报》的一个例子,他在莎士比亚身上训练了一个 GPT 模型
你可以看到,在多次迭代之后,LM在预测莎士比亚文本中接下来的词汇方面变得越来越好。
你可以看到,在多次迭代之后,LM在预测莎士比亚文本中接下来的词汇方面变得越来越好。
![终于有人明确了 GPT 的状态!](https://ussnsimg.moomoo.com/feed_image/70042970/b1a4c1ddde5c335482f0fa7d6cb64be6.jpg/bigmoo)
好的,这里强烈解释一下,但是,每次迭代,学员模型都会试图预测下一个代币/整数会出现在绿色代币/整数之后(如图所示),训练曲线对此进行了概述,与原始文本相比,它预测下一个代币的效果如何。
围绕 GPT-2,业界注意到,如果我们以特定方式构造提示并提供一些示例(Few Shot 提示),那么基础模型将被 “欺骗” 自动完成我们在提示中提供的指令。
![终于有人明确了 GPT 的状态!](https://ussnsimg.moomoo.com/feed_image/70042970/e176ab7777553d9c8453e9f73c64e3ec.jpg/bigmoo)
安德烈重复了好几遍,目前最值得学习的开源模型可能是 LLaMa
$Meta Platforms(META.US$ AI(因为 OAI 没有发布任何关于 GPT-4 的内容)
GPT-2-已发布 + 权重
GPT-3-可通过 API 获得基本型号 (da-vinci)
GPT-4-无法通过 API 获得
$Meta Platforms(META.US$ AI(因为 OAI 没有发布任何关于 GPT-4 的内容)
GPT-2-已发布 + 权重
GPT-3-可通过 API 获得基本型号 (da-vinci)
GPT-4-无法通过 API 获得
![终于有人明确了 GPT 的状态!](https://ussnsimg.moomoo.com/feed_image/70042970/3bafd4903eef34c398114cf23c3d242a.jpg/bigmoo)
基本模型不是助手,从基本意义上讲,它们不会 “按你的要求去做”。他们只是自动填写文本。
但是,如果你用很少的提示来构造你的文档,它会 “欺骗” 基础模型,让它认为它会自动完成人工智能和人类之间的聊天
但是,如果你用很少的提示来构造你的文档,它会 “欺骗” 基础模型,让它认为它会自动完成人工智能和人类之间的聊天
![终于有人明确了 GPT 的状态!](https://ussnsimg.moomoo.com/feed_image/70042970/e0b5e4b74e083d2a82ca8525d06ef8b0.jpg/bigmoo)
但是这个技巧还不够。因此,我们要转到第 2 步。
监督微调。
收集小而高质量的指令数据集(比如人工承包商)
现在继续使用交换的数据集训练模型,我们得到了 SFT(监督微调)模型。
监督微调。
收集小而高质量的指令数据集(比如人工承包商)
现在继续使用交换的数据集训练模型,我们得到了 SFT(监督微调)模型。
![终于有人明确了 GPT 的状态!](https://ussnsimg.moomoo.com/feed_image/70042970/0cf99360dbb93063987bc41739295ea3.jpg/bigmoo)
SFT 模型... 还不太好,绝对不是 ChatGPT 的质量。因此,训练仍在继续
使用SFT模型生成问题输出,用户查看和比较3个版本并排名最好,然后根据用户的选择对模型进行重新训练
使用SFT模型生成问题输出,用户查看和比较3个版本并排名最好,然后根据用户的选择对模型进行重新训练
![终于有人明确了 GPT 的状态!](https://ussnsimg.moomoo.com/feed_image/70042970/48ca524119d03d538df07da1b7c3eb38.jpg/bigmoo)
这是通过权衡对回复的投票率进行权衡来实现的。例如,当你击中
要么
在 ChatGPT 中,或者选择重新生成响应,这些信号非常适合 RLHF。
安德烈正在探讨RLHF模型对我们 “感觉” 更好的潜在原因。至少在成为一个好助手方面是如此。
再说一遍,如果有人还在读书,我会推荐你看视频![]()
再说一遍,如果有人还在读书,我会推荐你看视频
有趣的是,安德烈所说的RLHF并不是对基本模型的严格改进。RLHF 模型的熵值较小,因此其潜在的 “创造性” 较差。
因为基础模型仍然更好,因为它们仍然很混乱。
因为基础模型仍然更好,因为它们仍然很混乱。
![终于有人明确了 GPT 的状态!](https://ussnsimg.moomoo.com/feed_image/70042970/b7eb2b7e56a93a0ea4f9906d6f985b52.jpg/bigmoo)
这是伯克利人根据排名对模型的当前状态进行排序。
有趣的是,karpathy 说 GPT-4 是 “迄今为止” 最好的,但在排行榜上,其 1274 到 Claude 的 1224 ELO 评分似乎 “到目前为止” 还没有
有趣的是,karpathy 说 GPT-4 是 “迄今为止” 最好的,但在排行榜上,其 1274 到 Claude 的 1224 ELO 评分似乎 “到目前为止” 还没有
![终于有人明确了 GPT 的状态!](https://ussnsimg.moomoo.com/feed_image/70042970/f4ddec1d0390338095756b7f0f121be2.jpg/bigmoo)
RLHF 模型排名更高,所有前三名都是 RLHF 模型,其余的(据他所知是 SFT 模型)
哇哦!我们已经完成了谈话的前半部分。移至 “将这些模型应用于问题”。
哇哦!我们已经完成了谈话的前半部分。移至 “将这些模型应用于问题”。
![终于有人明确了 GPT 的状态!](https://ussnsimg.moomoo.com/feed_image/70042970/d3ee90c7439c3789993250db246acc15.jpg/bigmoo)
然后,安德烈相当深入地探讨了人类撰写声明的过程之间的区别
“加利福尼亚的人口是阿拉斯加的人口的53倍”
人脑会经历循环、事实检查、计算、反思。
“加利福尼亚的人口是阿拉斯加的人口的53倍”
人脑会经历循环、事实检查、计算、反思。
![终于有人明确了 GPT 的状态!](https://ussnsimg.moomoo.com/feed_image/70042970/dc0d6320e4183480bbfd6ee833cb5f27.png/bigmoo)
当 GPT 尝试自动完成时,GPT 中没有内部对话框。
无论代币是需要查询的数字还是需要检查的事实,它花费的每个代币的 “计算” 量都是相同的,但是它们拥有丰富的知识和完美的记忆力(上下文窗口)
无论代币是需要查询的数字还是需要检查的事实,它花费的每个代币的 “计算” 量都是相同的,但是它们拥有丰富的知识和完美的记忆力(上下文窗口)
![终于有人明确了 GPT 的状态!](https://ussnsimg.moomoo.com/feed_image/70042970/0c7149076bf73a5ba21a8a3f1a0da622.png/bigmoo)
思想链之类的方法通过询问 “让我们逐步思考” 来为模型提供 “更多标记” 或 “更多思考时间”
这将使模型展示其工作原理,这将让它 “有时间思考” 以获得更好的答案
这将使模型展示其工作原理,这将让它 “有时间思考” 以获得更好的答案
![终于有人明确了 GPT 的状态!](https://ussnsimg.moomoo.com/feed_image/70042970/585655af0d713b37a1b9f68e8d6d5a8b.png/bigmoo)
现在,安德烈将自我反思作为一种方法。
模型可能会被 “卡住”,因为他们无法取消已经采样的代币。
想象一下自己说错了单词然后把自己停在中间 “让我改写一下” 然后你重新开始这句话
模型可能会被 “卡住”,因为他们无法取消已经采样的代币。
想象一下自己说错了单词然后把自己停在中间 “让我改写一下” 然后你重新开始这句话
模特没有那么奢侈所以他们可能会被困在错误的道路上...
但是诸如自我反省之类的例子表明,要求模型审查其输出,对其进行判断,会使模型进行 “第二次更改” 或再次推翻输出的推理,从而改善结果!
但是诸如自我反省之类的例子表明,要求模型审查其输出,对其进行判断,会使模型进行 “第二次更改” 或再次推翻输出的推理,从而改善结果!
![终于有人明确了 GPT 的状态!](https://ussnsimg.moomoo.com/feed_image/70042970/f4a3834ea20b30418e580f7cc82b1e93.png/bigmoo)
我很喜欢,Andrej 使用了 LLM 的思维速度和慢速思考——系统 1 和系统 2 的思维模型。
像 CoT、Self Reflexion 和最近发布的 Tree of Thought 这样的技巧是我们构建系统 2 的尝试,思维越慢、更深思熟虑
像 CoT、Self Reflexion 和最近发布的 Tree of Thought 这样的技巧是我们构建系统 2 的尝试,思维越慢、更深思熟虑
![终于有人明确了 GPT 的状态!](https://ussnsimg.moomoo.com/feed_image/70042970/5da8fc2e508d39c8806e816fff30c105.png/bigmoo)
免责声明:社区由Moomoo Technologies Inc.提供,仅用于教育目的。
更多信息
评论
登录发表评论