華爾街深度研究:DeepSeek是AI末日嗎?
專(zhuān)題:DeepSeek為何能震動(dòng)全球AI圈
來(lái)源:華爾街見(jiàn)聞
春節(jié)期間,DeepSeek新一代開(kāi)源模型以驚人的低成本和高性能引發(fā)熱議,在全球投資界引發(fā)劇震。
市場(chǎng)上甚至出現(xiàn)了DeepSeek“僅用500萬(wàn)美元就復(fù)制OpenAI”的說(shuō)法,認(rèn)為這將給整個(gè)AI基礎(chǔ)設(shè)施產(chǎn)業(yè)帶來(lái)“末日”。
對(duì)此,華爾街知名投行伯恩斯坦在詳細(xì)研究DeepSeek技術(shù)文檔后發(fā)布報(bào)告稱(chēng),這種市場(chǎng)恐慌情緒明顯過(guò)度,DeepSeek用“500萬(wàn)美元復(fù)制OpenAI”是市場(chǎng)誤讀。
另外,該行認(rèn)為,雖然DeepSeek的效率提升顯著,但從技術(shù)角度看,并非奇跡。而且,即便DeepSeek確實(shí)實(shí)現(xiàn)了10倍的效率提升,這也僅相當(dāng)于當(dāng)前AI模型每年的成本增長(zhǎng)幅度。
該行還表示,目前AI計(jì)算需求遠(yuǎn)未觸及天花板,新增算力很可能會(huì)被不斷增長(zhǎng)的使用需求吸收,因此對(duì)AI板塊保持樂(lè)觀。
“500萬(wàn)美元復(fù)制OpenAI”是誤讀
對(duì)于“500萬(wàn)美元復(fù)制OpenAI”的說(shuō)法,伯恩斯坦認(rèn)為,實(shí)際上是對(duì)DeepSeek V3模型訓(xùn)練成本的片面解讀,簡(jiǎn)單將GPU租用成本計(jì)算等同于了總投入:
這500萬(wàn)美元僅僅是基于每GPU小時(shí)2美元的租賃價(jià)格估算的V3模型訓(xùn)練成本,并未包括前期研發(fā)投入、數(shù)據(jù)成本以及其他相關(guān)費(fèi)用。
技術(shù)創(chuàng)新:效率大幅提升但非顛覆性突破
接著,伯恩斯坦在報(bào)告中詳細(xì)分析了DeepSeek發(fā)布的兩大模型V3、R1詳細(xì)技術(shù)特點(diǎn)。
?。?)V3模型的效率革命
該行表示,V3模型采用專(zhuān)家混合架構(gòu),用2048塊NVIDIA H800 GPU、約270萬(wàn)GPU小時(shí)就達(dá)到了可與主流大模型媲美的性能。
具體而言,V3模型采用了混合專(zhuān)家(MoE)架構(gòu),這一架構(gòu)本身就旨在降低訓(xùn)練和運(yùn)行成本。在此基礎(chǔ)上,V3還結(jié)合了多頭潛在注意力(MHLA)技術(shù),顯著降低了緩存大小和內(nèi)存使用。
同時(shí),F(xiàn)P8混合精度訓(xùn)練的運(yùn)用進(jìn)一步優(yōu)化了性能表現(xiàn)。這些技術(shù)的綜合運(yùn)用,使得V3模型在訓(xùn)練時(shí)僅需同等規(guī)模開(kāi)源模型約9%的算力,便能達(dá)到甚至超越其性能。
例如,V3預(yù)訓(xùn)練僅需約270萬(wàn)GPU小時(shí),而同樣規(guī)模的開(kāi)源LLaMA模型則需要約3000萬(wàn)GPU小時(shí)。
談及V3模型帶來(lái)的效率提升,伯恩斯坦認(rèn)為,與業(yè)界3-7倍的常見(jiàn)效率提升相比并非顛覆性突破:
MoE架構(gòu)的重點(diǎn)是顯著降低訓(xùn)練和運(yùn)行的成本,因?yàn)樵谌魏我淮沃挥幸徊糠謪?shù)集是活動(dòng)的(例如,當(dāng)訓(xùn)練V3時(shí),只有671B個(gè)參數(shù)中的37B為任何一個(gè)令牌更新,而密集模型中所有參數(shù)都被更新)。
對(duì)其他MoE比較的調(diào)查表明,典型的效率是3-7倍,而類(lèi)似大小的密度模型具有類(lèi)似的性能;
V3看起來(lái)甚至比這個(gè)更好(10倍以上),可能考慮到該公司在模型中帶來(lái)的其他一些創(chuàng)新,但認(rèn)為這是完全革命性的想法似乎有點(diǎn)夸張,并且不值得在過(guò)去幾天里席卷twitter世界的歇斯底里。
?。?)R1模型的推理能力與“蒸餾”策略
DeepSeek的R1模型則在V3的基礎(chǔ)上,通過(guò)強(qiáng)化學(xué)習(xí)(RL)等創(chuàng)新技術(shù),顯著提升了推理能力,使其能夠與OpenAI的o1模型相媲美。
值得一提的是,DeepSeek還采用了“模型蒸餾”策略,利用R1模型作為“教師”,生成數(shù)據(jù)來(lái)微調(diào)更小的模型,這些小模型在性能上可以與OpenAI的o1-mini等競(jìng)爭(zhēng)模型相媲美。這種策略不僅降低了成本,也為AI技術(shù)的普及提供了新的思路。
對(duì)AI板塊保持樂(lè)觀
伯恩斯坦認(rèn)為,即便DeepSeek確實(shí)實(shí)現(xiàn)了10倍的效率提升,這也僅相當(dāng)于當(dāng)前AI模型每年的成本增長(zhǎng)幅度。
事實(shí)上,在“模型規(guī)模定律”不斷推動(dòng)成本上升的背景下,像MoE、模型蒸餾、混合精度計(jì)算等創(chuàng)新對(duì)AI發(fā)展至關(guān)重要。
根據(jù)杰文斯悖論,效率提升通常會(huì)帶來(lái)更大的需求,而非削減開(kāi)支。該行認(rèn)為,目前AI計(jì)算需求遠(yuǎn)未觸及天花板,新增算力很可能會(huì)被不斷增長(zhǎng)的使用需求吸收。
基于以上分析,伯恩斯坦對(duì)AI板塊保持樂(lè)觀。
整合關(guān)鍵節(jié)點(diǎn)突發(fā)人事震蕩!山東鋼鐵董事長(zhǎng)解旗離任,“寶武系”毛展宏接棒,25年上半年已轉(zhuǎn)虧為盈
下一篇歡迎使用Z-BlogPHP!
相關(guān)文章
最新評(píng)論