OpenAI創(chuàng)始團隊成員、高級研究科學家Andrej Karpathy很罕見地,分享了一個來自中國的開源大模型——DeepSeek-v3。
Karpathy表示,DeepSeek僅用了280萬小時的GPU算力,就訓練出了比Llama-3405B(使用3080萬小時GPU)更強的前沿模型,整體成本節(jié)省了11倍左右,將算力發(fā)揮到了極致。
這為小模型和受算力限制的組織打開了全新世界——即便在算力有限的情況下,使用高質量數據、更好的算法同樣能訓練出高性能大模型。
此外, DeepSeek在MMLU、DROP、Codeforces、AIME等多個主流基準測試中,性能大幅度超過了GPT-4o、Claude-3.5-Sonnet、Qwen2.5-72B等著名開閉源模型,成為目前最強開源大模型之一。
國外網友表示,看來限制對中國的芯片供應并沒有扼殺他們的進步,反而促進了技術創(chuàng)新。有趣的是,資源限制不僅僅是障礙,它們還能強有力地推動創(chuàng)造力。
看了這個網友評論還是挺心酸的,國內被限制AI芯片,無法獲得更高的算力,我們靠著智慧、創(chuàng)新精神依然沖破封鎖——天行健 君子以自強不息!
中國人得到“檸檬”后,會榨干它的每一滴汁,然后做出美味的檸檬水。希望美國那些資源受限的實驗室也能取得同樣的成就。
中國即將成為超級人工智能大國。
這個模型很出色,但實現這一成就的團隊更優(yōu)秀,人類的創(chuàng)造力真是無窮無盡。
DeepSeek為彌補較小模型限制,進行的改進是否也可以應用于更大的模型?我們能否期待在使用10萬個 GPU 的集群時也獲得類似11倍的能力提升?
很想嘗試DeepSeek的API,但是從今早開始一直失敗的。
非常喜歡開源模型,他們迫使西方世界不得不降低價格。
Deepseek的團隊是一群超有才華的前量化分析師。量化分析師以榨取每一點性能提升而聞名。他們又一次成功了,只是這次是在不同的領域。高智商的人真是世界的福音。
他們的訓練效率非常瘋狂。
使用的訓練數據與 Llama3405B 大致相同,約為15萬億。但在相同的訓練數據下,算力卻減少了10倍。
哇塞,終于有人破解了訓練效率難題。當其他人都在用數十億美元計算他們的AI預算時,DeepSeek僅用他們的零頭就能開發(fā)出前沿大模型。看來,僅僅投入更多的GPU并不總是解決問題的辦法。
這位老哥直接上圖片,DeepSeek直接打跑OpenAI、Meta~
Deep Seek v3模型簡單介紹
Deep Seek V3的架構延續(xù)了第二代的高效推理和低成本訓練策略,主要包括多頭潛在注意力(MLA)和混合專家(MoE)兩大塊。
MLA是V3的核心創(chuàng)新之一,主要用于減少推理過程中的內存占用。MLA將鍵和值壓縮為一個潛在向量,并在推理過程中僅緩存該向量,而不是完整的鍵和值矩陣。
MLA的壓縮過程通過下投影矩陣和上投影矩陣實現。下投影矩陣將輸入向量壓縮為潛在向量,上投影矩陣將潛在向量還原為鍵和值。通過這種方式,MLA在推理過程中僅需緩存潛在向量和分離的鍵,從而顯著減少了內存占用。
MLA還對查詢進行了低秩壓縮,進一步減少了訓練過程中的激活內存。所以,MLA是V3極大降低算力的主要原因之一。
傳統(tǒng)的MoE架構,面對大規(guī)模的數據處理任務時,容易出現專家負載不均衡的情況。這種不均衡會導致嚴重的后果,其中最為突出的就是路由崩潰問題。當某些專家承擔了過多的負載,而其他專家則相對空閑時,路由機制可能會因為無法有效分配任務而陷入混亂,進而導致模型無法正常工作。
由于專家負載的不平衡,計算資源無法得到合理分配,使得整體計算過程變得緩慢且低效。在處理復雜的語言任務時,需要大量的算力來支持模型的推理和決策過程。
而V3對MoE進行了改良,引入了一套先進的動態(tài)調整機制,專門用于優(yōu)化專家負載。在訓練過程中,使得MoE會實時監(jiān)測每個專家的負載情況,通過一系列復雜而精確的算法,根據實際負載動態(tài)地調整任務分配。這種動態(tài)調整并非簡單的平均分配,而是根據專家的實時處理能力和當前任務的特點進行智能分配。
例如,當某個專家的負載過高時,模型會自動將一部分任務轉移到負載較輕的專家上,確保每個專家都能在合理的負載范圍內工作。
此外,V3的MoE 還使用了特殊的方法,會為每個專家設置一個動態(tài)的負載閾值,當負載超過該閾值時,觸發(fā)負載調整機制。在調整過程中,模型會綜合考慮多個因素,例如,專家的歷史處理效率、當前任務的緊急程度以及整個系統(tǒng)的負載均衡情況等,所以,V3的 MoE 既解讀了路由崩潰的難題,還將算力發(fā)揮到了極致。
其實寫到這里心里有一個疑問,Deep Seek要是有10萬張***,能開發(fā)出像o3那樣的超強大模型嗎?
Deep Seek除了開源最新模型之外,他們還提供了免費的在線服務,想嘗試的小伙伴可以去體驗一下。值得一提的是,還可以使用像o1模型那樣的深度思考模式,并且會把整個推理過程全部寫出來。
文章內容僅供閱讀,不構成投資建議,請謹慎對待。投資者據此操作,風險自擔。
海報生成中...
海藝AI的模型系統(tǒng)在國際市場上廣受好評,目前站內累計模型數超過80萬個,涵蓋寫實、二次元、插畫、設計、攝影、風格化圖像等多類型應用場景,基本覆蓋所有主流創(chuàng)作風格。
IDC今日發(fā)布的《全球智能家居清潔機器人設備市場季度跟蹤報告,2025年第二季度》顯示,上半年全球智能家居清潔機器人市場出貨1,2萬臺,同比增長33%,顯示出品類強勁的市場需求。