首頁 > 云計算頻道 > 大模型

OpenAI科學家盛贊中國大模型：算法非常強，算力用到極致！

2024年12月30日 09:21:30 來源：AIGC開放社區(qū)公眾號

　　OpenAI創(chuàng)始團隊成員、高級研究科學家Andrej Karpathy很罕見地，分享了一個來自中國的開源大模型——DeepSeek-v3。

　　Karpathy表示，DeepSeek僅用了280萬小時的GPU算力，就訓練出了比Llama-3405B(使用3080萬小時GPU)更強的前沿模型，整體成本節(jié)省了11倍左右，將算力發(fā)揮到了極致。

　　這為小模型和受算力限制的組織打開了全新世界——即便在算力有限的情況下，使用高質量數據、更好的算法同樣能訓練出高性能大模型。

　　此外， DeepSeek在MMLU、DROP、Codeforces、AIME等多個主流基準測試中，性能大幅度超過了GPT-4o、Claude-3.5-Sonnet、Qwen2.5-72B等著名開閉源模型，成為目前最強開源大模型之一。

　　國外網友表示，看來限制對中國的芯片供應并沒有扼殺他們的進步，反而促進了技術創(chuàng)新。有趣的是，資源限制不僅僅是障礙，它們還能強有力地推動創(chuàng)造力。

　　看了這個網友評論還是挺心酸的，國內被限制AI芯片，無法獲得更高的算力，我們靠著智慧、創(chuàng)新精神依然沖破封鎖——天行健君子以自強不息!

　　中國人得到“檸檬”后，會榨干它的每一滴汁，然后做出美味的檸檬水。希望美國那些資源受限的實驗室也能取得同樣的成就。

　　中國即將成為超級人工智能大國。

　　這個模型很出色，但實現這一成就的團隊更優(yōu)秀，人類的創(chuàng)造力真是無窮無盡。

　　DeepSeek為彌補較小模型限制，進行的改進是否也可以應用于更大的模型?我們能否期待在使用10萬個 GPU 的集群時也獲得類似11倍的能力提升?

　　很想嘗試DeepSeek的API，但是從今早開始一直失敗的。

　　非常喜歡開源模型，他們迫使西方世界不得不降低價格。

　　Deepseek的團隊是一群超有才華的前量化分析師。量化分析師以榨取每一點性能提升而聞名。他們又一次成功了，只是這次是在不同的領域。高智商的人真是世界的福音。

　　他們的訓練效率非常瘋狂。

　　使用的訓練數據與 Llama3405B 大致相同，約為15萬億。但在相同的訓練數據下，算力卻減少了10倍。

　　哇塞，終于有人破解了訓練效率難題。當其他人都在用數十億美元計算他們的AI預算時，DeepSeek僅用他們的零頭就能開發(fā)出前沿大模型。看來，僅僅投入更多的GPU并不總是解決問題的辦法。

　　這位老哥直接上圖片，DeepSeek直接打跑OpenAI、Meta~

　　Deep Seek v3模型簡單介紹

　　Deep Seek V3的架構延續(xù)了第二代的高效推理和低成本訓練策略，主要包括多頭潛在注意力(MLA)和混合專家(MoE)兩大塊。

　　MLA是V3的核心創(chuàng)新之一，主要用于減少推理過程中的內存占用。MLA將鍵和值壓縮為一個潛在向量，并在推理過程中僅緩存該向量，而不是完整的鍵和值矩陣。

　　MLA的壓縮過程通過下投影矩陣和上投影矩陣實現。下投影矩陣將輸入向量壓縮為潛在向量，上投影矩陣將潛在向量還原為鍵和值。通過這種方式，MLA在推理過程中僅需緩存潛在向量和分離的鍵，從而顯著減少了內存占用。

　　MLA還對查詢進行了低秩壓縮，進一步減少了訓練過程中的激活內存。所以，MLA是V3極大降低算力的主要原因之一。

　　傳統(tǒng)的MoE架構，面對大規(guī)模的數據處理任務時，容易出現專家負載不均衡的情況。這種不均衡會導致嚴重的后果，其中最為突出的就是路由崩潰問題。當某些專家承擔了過多的負載，而其他專家則相對空閑時，路由機制可能會因為無法有效分配任務而陷入混亂，進而導致模型無法正常工作。

　　由于專家負載的不平衡，計算資源無法得到合理分配，使得整體計算過程變得緩慢且低效。在處理復雜的語言任務時，需要大量的算力來支持模型的推理和決策過程。

　　而V3對MoE進行了改良，引入了一套先進的動態(tài)調整機制，專門用于優(yōu)化專家負載。在訓練過程中，使得MoE會實時監(jiān)測每個專家的負載情況，通過一系列復雜而精確的算法，根據實際負載動態(tài)地調整任務分配。這種動態(tài)調整并非簡單的平均分配，而是根據專家的實時處理能力和當前任務的特點進行智能分配。

　　例如，當某個專家的負載過高時，模型會自動將一部分任務轉移到負載較輕的專家上，確保每個專家都能在合理的負載范圍內工作。

　　此外，V3的MoE 還使用了特殊的方法，會為每個專家設置一個動態(tài)的負載閾值，當負載超過該閾值時，觸發(fā)負載調整機制。在調整過程中，模型會綜合考慮多個因素，例如，專家的歷史處理效率、當前任務的緊急程度以及整個系統(tǒng)的負載均衡情況等，所以，V3的 MoE 既解讀了路由崩潰的難題，還將算力發(fā)揮到了極致。

　　其實寫到這里心里有一個疑問，Deep Seek要是有10萬張***，能開發(fā)出像o3那樣的超強大模型嗎?

　　Deep Seek除了開源最新模型之外，他們還提供了免費的在線服務，想嘗試的小伙伴可以去體驗一下。值得一提的是，還可以使用像o1模型那樣的深度思考模式，并且會把整個推理過程全部寫出來。

　　文章內容僅供閱讀，不構成投資建議，請謹慎對待。投資者據此操作，風險自擔。

海報生成中...

即時

全球頂級AI創(chuàng)作社區(qū)回歸！海藝AI國內首發(fā)“全民娛樂化創(chuàng)作

海藝AI的模型系統(tǒng)在國際市場上廣受好評，目前站內累計模型數超過80萬個，涵蓋寫實、二次元、插畫、設計、攝影、風格化圖像等多類型應用場景，基本覆蓋所有主流創(chuàng)作風格。

OPPO A6l發(fā)布：售價1799元搭載六年長壽大電池

華為Mate X7今日開售：售價12999元起

新聞

市場占比高達35.8%，阿里云引領中國AI云增長

9月9日，國際權威市場調研機構英富曼(Omdia)發(fā)布了《中國AI云市場，1H25》報告。中國AI云市場阿里云占比8%位列第一。

企業(yè)IT

華為坤靈發(fā)布IdeaHub千行百業(yè)體驗官計劃，助力中小企

9月24日，華為坤靈召開“智能體驗，一屏到位”華為IdeaHub千行百業(yè)體驗官計劃發(fā)布會。

3C消費

雅馬哈推出兩款高端頭戴耳機YH-4000與YH-C3000

雅馬哈昨日宣布推出兩款頭戴式耳機，分別是平板振膜的YH-4000和動圈原理的YH-C3000。

研究

IDC：2025上半年全球智能家居清潔機器人出貨量同比暴

IDC今日發(fā)布的《全球智能家居清潔機器人設備市場季度跟蹤報告，2025年第二季度》顯示，上半年全球智能家居清潔機器人市場出貨1,2萬臺，同比增長33%，顯示出品類強勁的市場需求。

專題

禮儀主持_商業(yè)活動模特演藝服務公司
九章智算云Alaya NeW Cloud 2.0發(fā)布
中文科技資訊旗下IB科技資訊上線專
中文科技資訊關于我單位網站被仿冒一

返回主頁 ┊ 關于我們 ┊ 內容聯(lián)系 ┊ 聯(lián)系我們 ┊ 免責聲明 ┊ 原創(chuàng)新聞 ┊ 門戶版

国产九九视频一区二区三区_亚洲欧美资源在线_精品国产自在久精品国产_成人午夜黄色影院
| | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | |

国产九九视频一区二区三区_亚洲欧美资源在线_精品国产自在久精品国产_成人午夜黄色影院

OpenAI科學家盛贊中國大模型：算法非常強，算力用到極致！

最新新聞

熱門新聞

即時

全球頂級AI創(chuàng)作社區(qū)回歸！海藝AI國內首發(fā)“全民娛樂化創(chuàng)作

新聞

市場占比高達35.8%，阿里云引領中國AI云增長

企業(yè)IT

華為坤靈發(fā)布IdeaHub千行百業(yè)體驗官計劃，助力中小企

3C消費

雅馬哈推出兩款高端頭戴耳機YH-4000與YH-C3000

研究

IDC：2025上半年全球智能家居清潔機器人出貨量同比暴

專題

OpenAI科學家盛贊中國大模型：算法非常強，算力用到極致！

擴展閱讀

最新新聞

熱門新聞