SharesGrow com
评论了
$英伟达 (NVDA.US)$
这些修改远远超出了标准CUDA级别的开发,但它们难以维护。因此,这种优化水平反映了DeepSeek工程师们来自顶尖中国高校的卓越技能。全球GPU芯片-云计算短缺受到美国限制的加剧,迫使像DeepSeek这样的公司采用创新解决方案,DeepSeek已经采取措施...
这些修改远远超出了标准CUDA级别的开发,但它们难以维护。因此,这种优化水平反映了DeepSeek工程师们来自顶尖中国高校的卓越技能。全球GPU芯片-云计算短缺受到美国限制的加剧,迫使像DeepSeek这样的公司采用创新解决方案,DeepSeek已经采取措施...
已翻译
3
9
$英伟达 (NVDA.US)$
DeepSeek V3令人瞩目的低成本并非完全源于工程创新,而是建立在一个重要但容易被忽视的基础之上:它并非从零开始训练的模型。V3采用了"知识蒸馏"技术,这是由Hinton教授在2015年提出的方法,允许一个强大的模型(教师模型)将知识传授给较小的新模型(学生模型),大幅减少训练所需的资源和时间。
在DeepSeek V3的案例中,这一技术的应用体现为:
DeepSeek R1作为教师模型,在2023年11月就已发布
V3通过知识蒸馏继承了R1的推理能力,尤其是在数学和编程领域
这种技术路线使得大量参数可以直接继承,无需从头训练
许多关键的超参数调优过程可以被省略
因此,当我们讨论V3的训练成本时,不能仅看表面数字。这就像在计算一栋大楼的建造成本时,如果已经有了完整的地基和框架,当然会比从零开始建造要便宜得多。
DeepSeek V3令人瞩目的低成本并非完全源于工程创新,而是建立在一个重要但容易被忽视的基础之上:它并非从零开始训练的模型。V3采用了"知识蒸馏"技术,这是由Hinton教授在2015年提出的方法,允许一个强大的模型(教师模型)将知识传授给较小的新模型(学生模型),大幅减少训练所需的资源和时间。
在DeepSeek V3的案例中,这一技术的应用体现为:
DeepSeek R1作为教师模型,在2023年11月就已发布
V3通过知识蒸馏继承了R1的推理能力,尤其是在数学和编程领域
这种技术路线使得大量参数可以直接继承,无需从头训练
许多关键的超参数调优过程可以被省略
因此,当我们讨论V3的训练成本时,不能仅看表面数字。这就像在计算一栋大楼的建造成本时,如果已经有了完整的地基和框架,当然会比从零开始建造要便宜得多。
1
SharesGrow com
预约了直播
$微软 (MSFT.US)$ 微软2025财年第一季度 业绩电话会已安排在 10月30日下午5:30 ET / 10月31日上午5:30 SGT / 10月31日上午8:30 AEST。立即订阅参加与管理层的现场业绩电话会议!
超预期还是不及预期?
您对 微软的第一季度 业绩会有怎样的表现?公司会超出估计还是低于?确保点击“预订”按钮,以了解管理层的看法!
免责声明:
此演示文稿仅为资讯目的,不构成投资建议。请仔细阅读帖子中的风险披露声明。
超预期还是不及预期?
您对 微软的第一季度 业绩会有怎样的表现?公司会超出估计还是低于?确保点击“预订”按钮,以了解管理层的看法!
免责声明:
此演示文稿仅为资讯目的,不构成投资建议。请仔细阅读帖子中的风险披露声明。
已翻译
![](https://usliveimg.moomoo.com/live_client/77777055/20241025/1436e4ad90d126a76ef043d384078fdb.png/thumb?area=100&is_public=true)
微软 2025 Q1 业绩电话会
10/31 05:30
14
SharesGrow com 楼主 : 3/44=6.8%
DBS将在未来几年支付60分常规分红和15分特别分红,以通过特别分红的方式分配其过剩的资产。