中文简体
返回
下载
登录后咨询在线客服
回到顶部
微软Build大会: 在人工智能时代释放创新的力量
浏览 9万 内容 27

有人最终搞清了GPT的状态!

$微软 (MSFT.US)$ 观看Andrej Karpathy今天的演示,并记录推特笔记,一起来吧!
Andrej Karpathy从几个阶段开始:
1 - 预训练 - 数月 x 数千个GPU
2、3、4 - 微调阶段,需时数小时或数天
有人最终搞清了GPT的状态!
在进行预训练之前,需要进行2个准备步骤。
数据收集 - 从不同来源获得大量数据(这里是Andrej LLaMa混合)
Tokenization - 在单词和整数之间进行无损转换。
有人最终搞清了GPT的状态!
有人最终搞清了GPT的状态!
“你不能仅凭模型包含的参数数量来评判模型的性能”
LLaMa在1-1.4万亿个令牌上进行了训练,而GPt-3在3000亿个令牌上进行了训练。
有人最终搞清了GPT的状态!
很抱歉,我没有足够的时间来详细介绍transformers是如何工作的。 一定要爱上Andrej对教育的渴望!
说实话,我无法用一条推文总结这个。
有人最终搞清了GPT的状态!
这是一个来自NYt的例子,对Shakespeare进行了chatgpt的训练模型。
你可以看到,在许多迭代后,语言模型在预测莎士比亚文本中下一个词会出现方面持续改进。
有人最终搞清了GPT的状态!
好吧,在这里有一个非常粗略的释义,但是每次迭代时,训练模型都试图预测在绿色标记后面会出现哪个标记/整数,训练曲线概述了它相对于原始文本有多好地预测了下一个标记。
在chatgpt-2的时候,行业板块注意到,如果我们以特定方式构建提示,并提供几个例子(Few Shot提示),那么基础模型将被“欺骗”,自动完成我们在提示中提供的指令。
有人最终搞清了GPT的状态!
Andrej多次重复这一点,现在可能是从LLaMa开始学习的最好的开源模型。
$Meta Platforms (META.US)$ 人工智能(由于OAI没有发布有关GPt-4的任何信息)
GPt-2 - 发布 + 权重
GPt-3 - 基础模型可通过API获得(达芬奇)
GPt-4 - 无法通过API获得
有人最终搞清了GPT的状态!
基础模型不是助手,在基本意义上它们不会“做你要求的事”。它们只是自动补全文本。
但如果你用Few-shot提示来构建你的文档,它将“欺骗”基础模型,让它认为自己在自动补全人工智能和人类之间的对话
有人最终搞清了GPT的状态!
但这个技巧还不够。所以我们进入第二步。
监督微调。
收集小而高质量(类似于人工合同商)的指令数据集
然后使用交换的数据集继续训练模型,我们得到了SFt(有监督微调)模型。
有人最终搞清了GPT的状态!
SFt模型……还不太好,肯定不及chatgpt的质量。所以训练还在继续。
使用SFt模型生成问题输出,用户对比并评估3个版本,排名最好的,然后模型根据用户的选择重新训练。
有人最终搞清了GPT的状态!
这是通过对更好的回答进行加权来完成的。例如,当您点击chatgpt中的“回复”按钮或选择重新生成回答时,这些信号对于RLHF非常有价值。 或者 在chatgpt中,当你点击“回复”按钮或选择重新生成回答时,这些信号对于RLHF非常有价值。
Andrej正在探讨为什么RLHF模型在“感觉”上更好的可能原因,至少在成为一名好助理方面。
如果还有人在阅读的话,我会给你们参考一下这个视频
有趣的是,Andrej谈到RLHF并不是对基础模型的严格改进。RLHF模型的熵较低,因此可能较不"富有创造性"。
因此,基础模型仍然更好,因为它们仍然是混沌的。
有人最终搞清了GPT的状态!
这是基于伯克利的人们根据排名所做的模型的当前状态。
有趣的是,Karpathy说GPt-4是"远远"最好的,但图表上是1274对Claude的1224 ELO评分,似乎并不"远远"。
有人最终搞清了GPT的状态!
RLHF模型的排名更高,前3名都是RLHF模型,剩下的(据他所知)是SFt模型。
喔呼!我们已经完成了演讲的前半部分。接下来是将这些模型应用于问题的部分。
有人最终搞清了GPT的状态!
Andrej随后深入探讨了人类撰写陈述的过程与机器生成陈述的差异。
加州的人口是阿拉斯加的53倍
人类大脑经过循环、事实核对、计算和反思
有人最终搞清了GPT的状态!
chatgpt试图自动完成时,chatgpt内部没有对话
它每个记号的"计算"量相同,无论记号是它需要查找的数字还是它需要核对的事实,但它们拥有广阔的知识和完美的记忆(上下文窗口)
有人最终搞清了GPT的状态!
像"思维链"这样的方法提供了"更多的记号"或"更多的思考时间",通过询问"让我们一步一步地思考"
这将使模型展示它的工作,这将为它提供"思考时间"以得出更好的答案
有人最终搞清了GPT的状态!
现在安德烈正在采用自省作为一种方法
模型可能会因为无法取消已经采样的记号而"卡住"
想象一下自己说错了一个词,中途停下来说:“让我重新表达一下”,然后重新开始句子
模型没有那种奢侈,所以它们可能会陷入错误的道路……
但像自我反思这样的例子表明,要求模型审查其输出、评判其输出,可以给模型提供“第二次机会”或重新理解输出的逻辑,从而提高结果!
有人最终搞清了GPT的状态!
我喜欢它,安德烈使用我们思考的快与慢-系统1和系统2的模型来Llm。
这些技术,如Cot、自我反思和最近发布的思维之树,是我们构建系统2、更缓慢、更深思熟虑的思维的尝试。
类比。
有人最终搞清了GPT的状态!
免责声明:社区由Moomoo Technologies Inc.提供,仅用于教育目的。 更多信息
2
5
+0
原文
举报
浏览 4.5万
评论
登录发表评论