來源:市場資訊
來源:AI智見錄

“馬斯克評論: “有趣的分析。我所見過的最好的?!?
“AI 將無處不在。”
DeepSeek r1 的真相與細(xì)節(jié)
真實(shí)情況:
-
它在相關(guān) App Store 類別中下載量排名第一。明顯領(lǐng)先于 ChatGPT,這是 Gemini 和 Claude 都未能實(shí)現(xiàn)的。
-
從質(zhì)量角度來看,它與 o1 相當(dāng),但仍落后于 o3。
-
實(shí)現(xiàn)了真正的算法突破,使其在訓(xùn)練和推理方面都大大提高了效率。FP8 訓(xùn)練、MLA 和多 token 預(yù)測都具有重要意義。
-
容易驗(yàn)證 r1 的訓(xùn)練成本僅為 600 萬美元。雖然這在字面上是真實(shí)的,但也極具誤導(dǎo)性。
-
即使他們的硬件架構(gòu)也很新穎,值得注意的是他們使用 PCI-Express 進(jìn)行擴(kuò)展。
重要細(xì)節(jié):
-
根據(jù)技術(shù)論文,600 萬美元并不包括“與前期研究和架構(gòu)、算法和數(shù)據(jù)消融實(shí)驗(yàn)相關(guān)的成本”。這意味著,只有在實(shí)驗(yàn)室已經(jīng)在前期研究上投入數(shù)億美元并且能夠訪問更大規(guī)模集群的情況下,才有可能以 600 萬美元的成本訓(xùn)練出 r1 質(zhì)量的模型。DeepSeek 顯然擁有遠(yuǎn)超 2048 個(gè) H800 的算力;他們早期的一篇論文提到擁有 10000 個(gè) A100 的集群。一個(gè)同樣聰明的團(tuán)隊(duì)不可能僅憑 600 萬美元就能啟動 2000 個(gè) GPU 集群并從頭開始訓(xùn)練 r1。大約 20% 的 Nvidia 收入來自新加坡。盡管他們盡了最大努力,但 20% 的 Nvidia GPU 可能并不在新加坡。
-
存在大量的知識蒸餾——也就是說,如果沒有對 GPT-4o 和 o1 的無障礙訪問,他們可能無法完成這個(gè)訓(xùn)練。正如 @altcap 昨天向我指出的,限制前沿 GPU 的訪問權(quán)限卻不對中國蒸餾美國前沿模型的能力采取任何措施,這很有趣——顯然違背了出口限制的目的。為什么要買牛,如果可以免費(fèi)獲得牛奶?
核心發(fā)現(xiàn):
DeepSeek r1 確實(shí)具有重要意義,但需要注意一些細(xì)微差別。最重要的是 r1 在推理成本上比 o1 低得多且效率更高,這比 600 萬美元的訓(xùn)練成本更具意義。r1 的每次 API 調(diào)用成本比 o1 低 93%,可以在高端工作站上本地運(yùn)行,而且似乎沒有遇到任何速率限制,這很不可思議。簡單計(jì)算一下,每 10 億個(gè)活躍參數(shù)在 FP8 下需要 1GB 的 RAM,因此 r1 需要 37GB 的 RAM。批處理大大降低了成本,更多的計(jì)算能力增加了每秒 token 數(shù),所以云端推理仍然具有優(yōu)勢。還要注意,這里存在真正的地緣政治動態(tài),我認(rèn)為這在“Stargate”之后發(fā)布并非巧合。再見了,5000 億美元——我們幾乎都還沒認(rèn)識你。
結(jié)論要點(diǎn):
-
降低訓(xùn)練成本將提高 AI 的投資回報(bào)率。
-
在短期內(nèi),這對訓(xùn)練資本支出或“能源”主題都不會產(chǎn)生積極影響。
-
目前“AI 基礎(chǔ)設(shè)施”贏家(跨科技、工業(yè)、公用事業(yè)和能源領(lǐng)域)面臨的最大風(fēng)險(xiǎn)是:r1 的精簡版本可以在高端工作站(如有人提到的 Mac Studio Pro)上本地運(yùn)行。這意味著類似的模型將在約 2 年內(nèi)可以在高性能手機(jī)上運(yùn)行。如果推理計(jì)算轉(zhuǎn)移到邊緣設(shè)備是因?yàn)椤皦蛴昧恕?,那么我們將面臨一個(gè)截然不同的世界,出現(xiàn)不同的贏家——即我們將見證有史以來最大規(guī)模的 PC 和智能手機(jī)升級周期。計(jì)算能力一直在集中化和去中心化之間擺動。
-
人工超級智能(ASI)已經(jīng)非常接近,但沒有人真正知道超級智能的經(jīng)濟(jì)回報(bào)會是什么。如果一個(gè)耗資 1000 億美元、在 10 萬多個(gè) Blackwells(o5、Gemini 3、Grok 4)上訓(xùn)練的推理模型能夠治愈癌癥和發(fā)明曲速引擎,那么 ASI 的回報(bào)將非常高,訓(xùn)練資本支出和能源消耗將穩(wěn)步增長;戴森球?qū)⒅匦鲁蔀榻忉屬M(fèi)米悖論的最佳理論。我希望 ASI 的回報(bào)是高的——那將太棒了。
-
這對于使用 AI 的公司都非常有利:軟件、互聯(lián)網(wǎng)等。
-
從經(jīng)濟(jì)角度來看,這極大地提升了分發(fā)渠道和獨(dú)特?cái)?shù)據(jù)的價(jià)值——YouTube、Facebook、Instagram 和 X。
-
美國的實(shí)驗(yàn)室可能會停止發(fā)布其前沿模型,以防止對 r1 至關(guān)重要的知識蒸餾,盡管在這方面,貓可能已經(jīng)完全跑出了袋子。即 r1 可能足以訓(xùn)練 r2 等。
Grok-3 的影響
Grok-3 的出現(xiàn)可能會顯著影響上述結(jié)論。這將是自 GPT-4 以來首次對預(yù)訓(xùn)練擴(kuò)展定律的重要測試。就像花了幾周時(shí)間通過強(qiáng)化學(xué)習(xí)將 v3 轉(zhuǎn)變?yōu)?r1 一樣,運(yùn)行必要的強(qiáng)化學(xué)習(xí)來提高 Grok-3 的推理能力也可能需要幾周時(shí)間。基礎(chǔ)模型越好,推理模型就應(yīng)該越好,因?yàn)槿齻€(gè)擴(kuò)展定律是相乘的——預(yù)訓(xùn)練、后訓(xùn)練期間的強(qiáng)化學(xué)習(xí),以及推理過程中的測試時(shí)計(jì)算(這是強(qiáng)化學(xué)習(xí)的函數(shù))。Grok-3 已經(jīng)表明它可以完成超出 o1 的任務(wù)——參見 Tesseract 演示——超出多少將變得很重要。用《雙塔奇兵》中一個(gè)匿名獸人的話來說,“肉可能很快就會重新上菜”。時(shí)間會告訴我們答案,“當(dāng)事實(shí)改變時(shí),我就改變主意?!?/p>