国产九九视频一区二区三区_亚洲欧美资源在线_精品国产自在久精品国产_成人午夜黄色影院

誰將摘得“大模型第一股”?WEResearch 報告:無人物流車 2028 年市場規(guī)模預計突破 140 億告別參數內卷,“舒適黃金三角”行業(yè)標準下美的中央空調的技術突破比亞迪推進L3量產內測:已完成15萬公里L3級自動駕駛驗證微星PRO A1000PL PCIE5電源首發(fā)699元 ATX3.1+PCIe5.1雙認證高德開放平臺發(fā)布智能穿戴解決方案 已落地小米、榮耀等品牌擁抱AI,HPE Networking以“自動駕駛的網絡”引領智能網絡新時代2026年,6G會給我們帶來什么?情感交互人形機器人“愛湫”將發(fā)布:龍蜥外形設計超120間分店!萬寧宣布將關閉內地所有門店及線上商城美團LongCat App上線視頻通話功能 可模擬面試、輔導作業(yè)全球最小全自主可編程機器人誕生:接近細菌尺度 成本僅1美分歷時近三年:京東方、三星專利大戰(zhàn)最后一刻和解!王興興:即使再過一兩年 人形機器人全自動駐場演出也很難見到微信輸入法iOS版3.0發(fā)布:語音輸入大模型全面升級京東自提功能全國上線:到店自提 可再減一元愛詩科技與阿里云簽署全面合作協(xié)議 推動 AI 視頻全球化發(fā)展小米官宣:比亞迪方程豹鈦7首發(fā)適配小米生態(tài)接口 支持后排掛載平板全球首款10000mAh手機來了!榮耀WIN系列邁入萬級電池時代騰訊混元世界模型1.5發(fā)布!首次開源業(yè)界最全面實時世界模型框架
  • 首頁 > 云計算頻道 > 大模型

    OpenAI科學家盛贊中國大模型:算法非常強,算力用到極致!

    2024年12月30日 09:21:30 來源:AIGC開放社區(qū)公眾號

      OpenAI創(chuàng)始團隊成員、高級研究科學家Andrej Karpathy很罕見地,分享了一個來自中國的開源大模型——DeepSeek-v3。

      Karpathy表示,DeepSeek僅用了280萬小時的GPU算力,就訓練出了比Llama-3405B(使用3080萬小時GPU)更強的前沿模型,整體成本節(jié)省了11倍左右,將算力發(fā)揮到了極致。

      這為小模型和受算力限制的組織打開了全新世界——即便在算力有限的情況下,使用高質量數據、更好的算法同樣能訓練出高性能大模型。

      此外, DeepSeek在MMLU、DROP、Codeforces、AIME等多個主流基準測試中,性能大幅度超過了GPT-4o、Claude-3.5-Sonnet、Qwen2.5-72B等著名開閉源模型,成為目前最強開源大模型之一。

      國外網友表示,看來限制對中國的芯片供應并沒有扼殺他們的進步,反而促進了技術創(chuàng)新。有趣的是,資源限制不僅僅是障礙,它們還能強有力地推動創(chuàng)造力。

      看了這個網友評論還是挺心酸的,國內被限制AI芯片,無法獲得更高的算力,我們靠著智慧、創(chuàng)新精神依然沖破封鎖——天行健 君子以自強不息!

      中國人得到“檸檬”后,會榨干它的每一滴汁,然后做出美味的檸檬水。希望美國那些資源受限的實驗室也能取得同樣的成就。

      中國即將成為超級人工智能大國。

      這個模型很出色,但實現這一成就的團隊更優(yōu)秀,人類的創(chuàng)造力真是無窮無盡。

      DeepSeek為彌補較小模型限制,進行的改進是否也可以應用于更大的模型?我們能否期待在使用10萬個 GPU 的集群時也獲得類似11倍的能力提升?

      很想嘗試DeepSeek的API,但是從今早開始一直失敗的。

      非常喜歡開源模型,他們迫使西方世界不得不降低價格。

      Deepseek的團隊是一群超有才華的前量化分析師。量化分析師以榨取每一點性能提升而聞名。他們又一次成功了,只是這次是在不同的領域。高智商的人真是世界的福音。

      他們的訓練效率非常瘋狂。

      使用的訓練數據與 Llama3405B 大致相同,約為15萬億。但在相同的訓練數據下,算力卻減少了10倍。

      哇塞,終于有人破解了訓練效率難題。當其他人都在用數十億美元計算他們的AI預算時,DeepSeek僅用他們的零頭就能開發(fā)出前沿大模型。看來,僅僅投入更多的GPU并不總是解決問題的辦法。

      這位老哥直接上圖片,DeepSeek直接打跑OpenAI、Meta~

      Deep Seek v3模型簡單介紹

      Deep Seek V3的架構延續(xù)了第二代的高效推理和低成本訓練策略,主要包括多頭潛在注意力(MLA)和混合專家(MoE)兩大塊。

      MLA是V3的核心創(chuàng)新之一,主要用于減少推理過程中的內存占用。MLA將鍵和值壓縮為一個潛在向量,并在推理過程中僅緩存該向量,而不是完整的鍵和值矩陣。

      MLA的壓縮過程通過下投影矩陣和上投影矩陣實現。下投影矩陣將輸入向量壓縮為潛在向量,上投影矩陣將潛在向量還原為鍵和值。通過這種方式,MLA在推理過程中僅需緩存潛在向量和分離的鍵,從而顯著減少了內存占用。

      MLA還對查詢進行了低秩壓縮,進一步減少了訓練過程中的激活內存。所以,MLA是V3極大降低算力的主要原因之一。

      傳統(tǒng)的MoE架構,面對大規(guī)模的數據處理任務時,容易出現專家負載不均衡的情況。這種不均衡會導致嚴重的后果,其中最為突出的就是路由崩潰問題。當某些專家承擔了過多的負載,而其他專家則相對空閑時,路由機制可能會因為無法有效分配任務而陷入混亂,進而導致模型無法正常工作。

      由于專家負載的不平衡,計算資源無法得到合理分配,使得整體計算過程變得緩慢且低效。在處理復雜的語言任務時,需要大量的算力來支持模型的推理和決策過程。

      而V3對MoE進行了改良,引入了一套先進的動態(tài)調整機制,專門用于優(yōu)化專家負載。在訓練過程中,使得MoE會實時監(jiān)測每個專家的負載情況,通過一系列復雜而精確的算法,根據實際負載動態(tài)地調整任務分配。這種動態(tài)調整并非簡單的平均分配,而是根據專家的實時處理能力和當前任務的特點進行智能分配。

      例如,當某個專家的負載過高時,模型會自動將一部分任務轉移到負載較輕的專家上,確保每個專家都能在合理的負載范圍內工作。

      此外,V3的MoE 還使用了特殊的方法,會為每個專家設置一個動態(tài)的負載閾值,當負載超過該閾值時,觸發(fā)負載調整機制。在調整過程中,模型會綜合考慮多個因素,例如,專家的歷史處理效率、當前任務的緊急程度以及整個系統(tǒng)的負載均衡情況等,所以,V3的 MoE 既解讀了路由崩潰的難題,還將算力發(fā)揮到了極致。

      其實寫到這里心里有一個疑問,Deep Seek要是有10萬張***,能開發(fā)出像o3那樣的超強大模型嗎?

      Deep Seek除了開源最新模型之外,他們還提供了免費的在線服務,想嘗試的小伙伴可以去體驗一下。值得一提的是,還可以使用像o1模型那樣的深度思考模式,并且會把整個推理過程全部寫出來。

      文章內容僅供閱讀,不構成投資建議,請謹慎對待。投資者據此操作,風險自擔。

    海報生成中...

    最新新聞

    熱門新聞

    即時

    全球頂級AI創(chuàng)作社區(qū)回歸!海藝AI國內首發(fā)“全民娛樂化創(chuàng)作

    海藝AI的模型系統(tǒng)在國際市場上廣受好評,目前站內累計模型數超過80萬個,涵蓋寫實、二次元、插畫、設計、攝影、風格化圖像等多類型應用場景,基本覆蓋所有主流創(chuàng)作風格。

    新聞

    市場占比高達35.8%,阿里云引領中國AI云增長

    9月9日,國際權威市場調研機構英富曼(Omdia)發(fā)布了《中國AI云市場,1H25》報告。中國AI云市場阿里云占比8%位列第一。

    3C消費

    雅馬哈推出兩款高端頭戴耳機YH-4000與YH-C3000

    雅馬哈昨日宣布推出兩款頭戴式耳機,分別是平板振膜的YH-4000和動圈原理的YH-C3000。

    研究

    IDC:2025上半年全球智能家居清潔機器人出貨量同比暴

    IDC今日發(fā)布的《全球智能家居清潔機器人設備市場季度跟蹤報告,2025年第二季度》顯示,上半年全球智能家居清潔機器人市場出貨1,2萬臺,同比增長33%,顯示出品類強勁的市場需求。

    国产九九视频一区二区三区_亚洲欧美资源在线_精品国产自在久精品国产_成人午夜黄色影院
    | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | |