投资产品
期权交易
股票
交易所交易基金(ETF)
碎股
现金清算
交易功能
模拟交易
Level 2行情
图表工具
股票分析
市场分析
实时行情
股票行情
期权行情
期货行情
交易所交易基金(ETF)行情
外汇行情
技术分析工具
股票筛选器
热力图
财报日历
机构跟踪器
交易资讯
头条新闻
最新资讯
财经日历
热门专题
视频分析
费用和利率
费用
融资利率
优惠活动
新客福利
邀请福利
转仓福利
纳斯达克深度行情
资源
战略与见解
博客
Moomoo 新手指南
Moomoo 新手教程
Moomoo 课程
投资课堂
Moomoo 社区
社区广场
热门话题
精选内容
选择Moomoo
关于我们
Moomoo 桌面端
Moomoo 基金会
新闻中心
红人计划
投资者关系
您即将从moomoo.com跳转至富途控股官方网站。
帮助中心
更多
选择Moomoo
关于我们
Moomoo 桌面端
Moomoo 基金会
新闻中心
红人计划
投资者关系
您即将从moomoo.com跳转至富途控股官方网站。
帮助中心
登录
English
中文繁體
中文简体
下载
手机版
客户端
新一代平台
立即下载
查看其他下载内容
注册/登录
中文简体
返回
投资产品
期权交易
股票
交易所交易基金(ETF)
碎股
现金清算
交易功能
模拟交易
Level 2行情
图表工具
股票分析
市场分析
实时行情
股票行情
期权行情
期货行情
交易所交易基金(ETF)行情
外汇行情
技术分析工具
热力图
财报日历
机构跟踪器
交易资讯
头条新闻
最新资讯
财经日历
热门专题
视频分析
费用和利率
费用
融资利率
优惠活动
新客福利
邀请福利
转仓福利
纳斯达克深度行情
资源
战略与见解
博客
Moomoo 新手指南
Moomoo 新手教程
Moomoo 课程
投资课堂
Moomoo 社区
社区广场
热门话题
精选内容
选择Moomoo
关于我们
Moomoo 桌面端
Moomoo 基金会
新闻中心
红人计划
投资者关系
您即将从moomoo.com跳转至富途控股官方网站。
帮助中心
English
中文繁體
中文简体
深色
浅色
开通账户
下载
登录后咨询在线客服
回到顶部
微软Build大会: 在人工智能时代释放创新的力量
浏览 9万
内容 27
认证账号
Meltyy
参与了话题 · 2023/05/30 16:39
有人最终搞清了GPT的状态!
$微软 (MSFT.US)$
观看Andrej Karpathy今天的演示,并记录推特笔记,一起来吧!
Andrej Karpathy从几个阶段开始:
1 - 预训练 - 数月 x 数千个GPU
2、3、4 - 微调阶段,需时数小时或数天
在进行预训练之前,需要进行2个准备步骤。
数据收集 - 从不同来源获得大量数据(这里是Andrej LLaMa混合)
Tokenization - 在单词和整数之间进行无损转换。
“你不能仅凭模型包含的参数数量来评判模型的性能”
LLaMa在1-1.4万亿个令牌上进行了训练,而GPt-3在3000亿个令牌上进行了训练。
很抱歉,我没有足够的时间来详细介绍transformers是如何工作的。
一定要爱上Andrej对教育的渴望!
说实话,我无法用一条推文总结这个。
这是一个来自NYt的例子,对Shakespeare进行了chatgpt的训练模型。
你可以看到,在许多迭代后,语言模型在预测莎士比亚文本中下一个词会出现方面持续改进。
好吧,在这里有一个非常粗略的释义,但是每次迭代时,训练模型都试图预测在绿色标记后面会出现哪个标记/整数,训练曲线概述了它相对于原始文本有多好地预测了下一个标记。
在chatgpt-2的时候,行业板块注意到,如果我们以特定方式构建提示,并提供几个例子(Few Shot提示),那么基础模型将被“欺骗”,自动完成我们在提示中提供的指令。
Andrej多次重复这一点,现在可能是从LLaMa开始学习的最好的开源模型。
$Meta Platforms (META.US)$
人工智能(由于OAI没有发布有关GPt-4的任何信息)
GPt-2 - 发布 + 权重
GPt-3 - 基础模型可通过API获得(达芬奇)
GPt-4 - 无法通过API获得
基础模型不是助手,在基本意义上它们不会“做你要求的事”。它们只是自动补全文本。
但如果你用Few-shot提示来构建你的文档,它将“欺骗”基础模型,让它认为自己在自动补全人工智能和人类之间的对话
但这个技巧还不够。所以我们进入第二步。
监督微调。
收集小而高质量(类似于人工合同商)的指令数据集
然后使用交换的数据集继续训练模型,我们得到了SFt(有监督微调)模型。
SFt模型……还不太好,肯定不及chatgpt的质量。所以训练还在继续。
使用SFt模型生成问题输出,用户对比并评估3个版本,排名最好的,然后模型根据用户的选择重新训练。
这是通过对更好的回答进行加权来完成的。例如,当您点击chatgpt中的“回复”按钮或选择重新生成回答时,这些信号对于RLHF非常有价值。
或者
在chatgpt中,当你点击“回复”按钮或选择重新生成回答时,这些信号对于RLHF非常有价值。
Andrej正在探讨为什么RLHF模型在“感觉”上更好的可能原因,至少在成为一名好助理方面。
如果还有人在阅读的话,我会给你们参考一下这个视频
有趣的是,Andrej谈到RLHF并不是对基础模型的严格改进。RLHF模型的熵较低,因此可能较不"富有创造性"。
因此,基础模型仍然更好,因为它们仍然是混沌的。
这是基于伯克利的人们根据排名所做的模型的当前状态。
有趣的是,Karpathy说GPt-4是"远远"最好的,但图表上是1274对Claude的1224 ELO评分,似乎并不"远远"。
RLHF模型的排名更高,前3名都是RLHF模型,剩下的(据他所知)是SFt模型。
喔呼!我们已经完成了演讲的前半部分。接下来是将这些模型应用于问题的部分。
Andrej随后深入探讨了人类撰写陈述的过程与机器生成陈述的差异。
加州的人口是阿拉斯加的53倍
人类大脑经过循环、事实核对、计算和反思
chatgpt试图自动完成时,chatgpt内部没有对话
它每个记号的"计算"量相同,无论记号是它需要查找的数字还是它需要核对的事实,但它们拥有广阔的知识和完美的记忆(上下文窗口)
像"思维链"这样的方法提供了"更多的记号"或"更多的思考时间",通过询问"让我们一步一步地思考"
这将使模型展示它的工作,这将为它提供"思考时间"以得出更好的答案
现在安德烈正在采用自省作为一种方法
模型可能会因为无法取消已经采样的记号而"卡住"
想象一下自己说错了一个词,中途停下来说:“让我重新表达一下”,然后重新开始句子
模型没有那种奢侈,所以它们可能会陷入错误的道路……
但像自我反思这样的例子表明,要求模型审查其输出、评判其输出,可以给模型提供“第二次机会”或重新理解输出的逻辑,从而提高结果!
我喜欢它,安德烈使用我们思考的快与慢-系统1和系统2的模型来Llm。
这些技术,如Cot、自我反思和最近发布的思维之树,是我们构建系统2、更缓慢、更深思熟虑的思维的尝试。
类比。
$C3.ai (AI.US)$
$谷歌-A (GOOGL.US)$
$特斯拉 (TSLA.US)$
$纳斯达克综合指数 (.IXIC.US)$
$标普500ETF-SPDR (SPY.US)$
免责声明:社区由Moomoo Technologies Inc.提供,仅用于教育目的。
更多信息
2
5
+0
2
5
加载失败,请
点击重试
加载中
暂无内容
7
3
原文
举报
浏览 4.5万
评论
登录
发表评论
Meltyy
挣钱养猫猫😺
2183
粉丝
24
关注
1.8万
来访
关注
热议
美股
美股
港股
加拿大
日股
澳大利亚
新加坡
马来股
沪深
股票代码
迷你走势
最新价
TSLA
特斯拉
--
379.280
NVDA
英伟达
--
138.310
RGTI
Rigetti Computing
--
20.0000
PLTR
Palantir
--
75.190
AMD
美国超微公司
--
120.630
新闻
2024年最后几天股票自1952年以来的最糟糕下跌对于2025年可能意味着什么
05:42
在日本钢铁公司拒绝交易后,美国钢铁股票价格的下一步将如何发展
19分钟前
Cathie Wood的2025愿景:特斯拉的三重奏
18:15
Cerence 人工智能扩大与英伟达的合作,以推进其Callm语言模型系列,盘前股价上涨超过30%。
34分钟前
凯西·伍德谈英伟达:高期望与价值创造
18:21