share_log

國信證券:DeepSeek多層面技術提升訓練效率 測試性能領跑開源模型

国信证券:DeepSeek多层面技术提升训练效率 测试性能领跑开源模型

AASTOCKS ·  01/28 02:57

国信证券发表报告表示,中国人工智能公司深度求索(DeepSeek)于去年12月26日上线并开源DeepSeek-V3模型,多项评测超同类开源模型,在重要领域与顶尖闭源模型相当,训练成本低。模型层采用MoE架构,经多阶段训练与能力提炼,在知识、代码、数学推理等测评中领先开源模型。架构层沿用V2架构,引入新技术,如无辅助损失负载均衡策略、MTP提升数据利用率。训练层通过DualPipe算法和FP8混合精度训练实现成本控制与效率提升。

推理层先推出R1-Lite模型,后将R1推理能力迁移至V3提升其性能,推理算力包含GB300、博通、marvell等各类asic芯片。2025年1月发布的DeepSeek-R1模型在多测试中超越OpenAI的o1,在数学、编程及多种测试中表现出色。

国信证券指,DeepSeek的MoE较传统MoE有多方面改进。与传统MoE架构相比,DeepSeek MoE使用了更细粒度的专家,并将部分专家设置为共享专家,能够更精确地针对特定的问题提供解决方案。同时,传统MoE架构采用辅助损失来鼓励负载平衡,以免不平衡的专家载荷导致计算效率降低,但这可能在某些情况下影响模型性能。DeepSeekMoE引入了无辅助损失的负载平衡策略,在每个专家模型的任务匹配程度评分中添加一个偏置项,用于调整每个专家在决定哪些专家应该处理哪些任务时的负载,同时使用补充序列级辅助损失,以此来优化整个系统的性能和效率。

该行指,为了促进模型的高效训练,DeepSeek实施了工程优化。首先,模型使用了DualPipe算法,以实现高效的管道并行。与现有方法相比,DualPipe具有更少的管道气泡(等待数据处理或通信-半导体延迟形成的停滞区域),在模型训练的前向和后向传播过程实现了重叠计算和通信-半导体,从而提高了整体的训练效率。其次,DeepSeek引入了FP8混合精度训练,优化了训练期间的内存占用。

DualPipe技术优化通信-半导体成本。在大规模分布式训练系统中,每个计算节点需要频繁地与其他节点交换信息,导致部分时间在等待数据的传输,计算资源不能持续进行数据处理,资源利用率低下。以DeepSeek-V3为例,在模型训练时跨节点的专家并行性带来的通信-半导体开销导致计算与通信-半导体的比率约为1:1。为了解决这一问题,DeepSeek在单独的前向和后向块内部重叠计算和通信-半导体,通过采用双向管道调度, 同时从管道的两端供给数据,使大部分通信-半导体可以完全重叠,从而实现通信-半导体成本的降低。

本周一(20)日晚,拥有660B参数的超大规模模型DeepSeekR1正式发布。这款模型在数学任务上表现出色,如在AIME2024上获得79.8%的pass@1得分,略超OpenAI-o1;在MATH-500上得分高达97.3%,与OpenAI-o1相当。编程任务方面,如Codeforces 上获得2029 Elo评级,超越96.3%的人类参与者。在MMLU、MMLU-Pro和GPQA Diamond等知识基准测试中,DeepSeek R1得分分别为90.8%、84.0%和71.5%,虽略低于OpenAI-o1,但优于其他闭源模型。在最新公布的大模型竞技场LM Arena的综合榜单中,DeepSeek R1排名第三, 与o1并列。

声明:本内容仅用作提供资讯及教育之目的,不构成对任何特定投资或投资策略的推荐或认可。 更多信息
评论 评论 · 浏览 393

热点推荐

抢沙发

声明

本页的译文内容由软件翻译。Moomoo将竭力但却不能保证翻译内容之准确和可靠,亦不会承担因任何不准确或遗漏而引起的任何损失或损害。