$星展集團控股 (D05.SG)$
請參閱我去年的計算
鏈接:公允價格 DBS = $70
\sigma_{year=2025}^2045 CashFlowFromOperation(year) = (1+Gain) * $38.5*NumberOfShares,其中 Gain>=1 基於年收益複合增長率10%。還有很長的路要走。
請參閱我去年的計算
鏈接:公允價格 DBS = $70
\sigma_{year=2025}^2045 CashFlowFromOperation(year) = (1+Gain) * $38.5*NumberOfShares,其中 Gain>=1 基於年收益複合增長率10%。還有很長的路要走。
已翻譯
5
2
$英偉達 (NVDA.US)$
這些修改遠遠超出了標準CUDA級別的開發,但它們很難維護。因此,這種優化水平反映了DeepSeek工程師來自中國頂尖大學的卓越技能。全球GPU短缺,加劇了美國的限制,迫使像DeepSeek這樣的公司採用創新解決方案,DeepSeek取得了...
這些修改遠遠超出了標準CUDA級別的開發,但它們很難維護。因此,這種優化水平反映了DeepSeek工程師來自中國頂尖大學的卓越技能。全球GPU短缺,加劇了美國的限制,迫使像DeepSeek這樣的公司採用創新解決方案,DeepSeek取得了...
已翻譯
3
9
$英偉達 (NVDA.US)$
DeepSeek V3令人矚目的低成本並非完全源於工程創新,而是建立在一個重要但容易被忽視的基礎之上:它並非從零開始訓練的模型。V3採用了"知識蒸餾"技術,這是由Hinton教授在2015年提出的方法,允許一個強大的模型(教師模型)將知識傳授給較小的新模型(學生模型),大幅減少訓練所需的資源和時間。
在DeepSeek V3的案例中,這一技術的應用體現爲:
DeepSeek R1作爲教師模型,在2023年11月就已發佈
V3通過知識蒸餾繼承了R1的推理能力,尤其是在數學和編程領域
這種技術路線使得大量參數可以直接繼承,無需從頭訓練
許多關鍵的超參數調優過程可以被省略
因此,當我們討論V3的訓練成本時,不能僅看表面數字。這就像在計算一棟大樓的建造成本時,如果已經有了完整的地基和框架,當然會比從零開始建造要便宜得多。
DeepSeek V3令人矚目的低成本並非完全源於工程創新,而是建立在一個重要但容易被忽視的基礎之上:它並非從零開始訓練的模型。V3採用了"知識蒸餾"技術,這是由Hinton教授在2015年提出的方法,允許一個強大的模型(教師模型)將知識傳授給較小的新模型(學生模型),大幅減少訓練所需的資源和時間。
在DeepSeek V3的案例中,這一技術的應用體現爲:
DeepSeek R1作爲教師模型,在2023年11月就已發佈
V3通過知識蒸餾繼承了R1的推理能力,尤其是在數學和編程領域
這種技術路線使得大量參數可以直接繼承,無需從頭訓練
許多關鍵的超參數調優過程可以被省略
因此,當我們討論V3的訓練成本時,不能僅看表面數字。這就像在計算一棟大樓的建造成本時,如果已經有了完整的地基和框架,當然會比從零開始建造要便宜得多。
已翻譯
1