首頁 > 云計算頻道 > 大模型

DeepSeek超150萬模型，成最受歡迎開源大模型

2025年02月24日 09:45:09 來源：AIGC開放社區公眾號

　　今天凌晨3點，全球最大開源平臺之一huggingface聯合創始人兼首席執行官Clement Delangue發布了最新數據:

　　中國開源大模型DeepSeek-R1在150萬模型中，成為該平臺最受歡迎的開源大模型，點贊超過1萬。

　　前不久，Clement還特意發文恭喜DeepSeek-R1的下載量超過1000萬次，同樣創造了huggingface平臺有史以來最受歡迎的模型。

　　看來，Clement也吃到DeepSeek的紅利了，對它是真愛啊連續表揚。

　　值得一提的是，R1僅用了幾周的時間就超過了類ChatGPT開源鼻祖Meta發布的Llama系列，國內的開源大模型領頭羊Qwen系列，以及微軟開源的Phi系列，谷歌開源的Gemma系列。

　　就連開源文生圖模型的大黑馬FLUX.1，以及該領域的領導者Stable-Diffusion系列全都沒打過R1，這第一拿的實至名歸，踩著眾多開源高手上去的。

　　有網友表示，R1的開源徹底改變了AI領域。

　　本周，Deepseek表示將推出大量新功能，伙計你可來活了!

　　本周我們將獲得更多的開源驚喜!

　　巨大的功勞歸于 Deepseek，他們讓開源再次出色。他們徹底改變了游戲規則，并讓所有閉源模型都感到壓力。

　　即使像 Perplexity、Azure、AWS這樣的云平臺，也更傾向于使用 Deepseek，而不是他們自己的投資Sonar、OpenAI 或Anthropic 的模型。

　　DeepSeek-R1簡單介紹

　　其實DeepSeek在開發R1之前，先開發的是純強化學習版本R1-Zero，不依賴傳統的監督微調，采用了GRPO算法。雖然訓練出來性能不錯，但可讀性差和語言混合等都很差。

　　所以，在R1-Zero基礎之上訓練了R1模型，一共包含4個訓練階段。

　　冷啟動訓練階段:與R1-Zero 不同，為了避免強化學習訓練初期從基礎模型開始的不穩定冷啟動階段， R1構建并收集了少量長思維鏈數據，對 DeepSeek-V3-Base 模型進行微調，作為初始的強化學習參與者。

　　在收集數據時，研究團隊探索了多種方法，例如，使用帶有長思維鏈的少樣本提示作為示例、直接促使模型生成帶有反思和驗證的詳細答案、收集R1-Zero以可讀格式輸出的結果并通過人工標注后處理優化等，收集了數千條冷啟動數據來微調模型。

　　推理導向的強化學習階段:主要聚焦于提升模型在編碼、數學、科學和邏輯推理等推理密集型任務中的能力，這些任務通常具有明確的問題和解決方案。

　　在訓練過程中，發現思維鏈存在語言混合問題，尤其是當強化學習提示涉及多種語言時。為緩解這一問題，引入了語言一致性獎勵，通過計算思維鏈中目標語言單詞的比例來衡量。雖然消融實驗表明這種調整會導致模型性能略有下降，但它符合人類偏好，提高了可讀性。

　　最后，將推理任務的準確性和語言一致性獎勵直接相加，形成最終獎勵，并對微調后的模型進行強化學習訓練，直至推理任務收斂。

　　拒絕采樣和監督微調階段:當推理導向的強化學習收斂后，利用得到的檢查點收集監督微調數據，用于后續輪次的訓練。與初始冷啟動數據主要關注推理不同，

　　該階段的數據融合了其他領域的數據，以提升模型在寫作、角色扮演和其他通用任務中的能力。在推理數據方面，精心策劃推理提示，并通過對上述強化學習訓練的檢查點進行拒絕采樣生成推理軌跡。

　　全場景強化學習階段:為了使R1模型更好地符合人類偏好，實施了二次強化學習階段。該階段主要提高模型的有用性和無害性，同時進一步優化其推理能力。

　　通過結合獎勵信號和多樣化的提示分布來訓練模型。對于推理數據，遵循R1-Zero 中使用的方法，利用基于規則的獎勵在數學、代碼和邏輯推理領域引導學習過程;

　　對于通用數據，則采用獎勵模型來捕捉復雜和微妙場景中的人類偏好。基于 DeepSeek-V3的流程，采用類似的偏好對和訓練提示分布。在評估有用性時，僅關注最終總結，確保評估重點在于響應對用戶的實用性和相關性，同時盡量減少對底層推理過程的干擾;

　　在評估無害性時，評估模型的整個響應，包括推理過程和總結，以識別和減輕生成過程中可能出現的任何潛在風險、偏差或有害內容。

　　文章內容僅供閱讀，不構成投資建議，請謹慎對待。投資者據此操作，風險自擔。

海報生成中...

即時

全球頂級AI創作社區回歸！海藝AI國內首發“全民娛樂化創作

海藝AI的模型系統在國際市場上廣受好評，目前站內累計模型數超過80萬個，涵蓋寫實、二次元、插畫、設計、攝影、風格化圖像等多類型應用場景，基本覆蓋所有主流創作風格。

榮耀500系列正式發布 2699元起

一加Ace 6T官宣：全球首發驍龍8 Gen5

新聞

市場占比高達35.8%，阿里云引領中國AI云增長

9月9日，國際權威市場調研機構英富曼(Omdia)發布了《中國AI云市場，1H25》報告。中國AI云市場阿里云占比8%位列第一。

企業IT

華為坤靈發布IdeaHub千行百業體驗官計劃，助力中小企

9月24日，華為坤靈召開“智能體驗，一屏到位”華為IdeaHub千行百業體驗官計劃發布會。

3C消費

雅馬哈推出兩款高端頭戴耳機YH-4000與YH-C3000

雅馬哈昨日宣布推出兩款頭戴式耳機，分別是平板振膜的YH-4000和動圈原理的YH-C3000。

研究

IDC：2025上半年全球智能家居清潔機器人出貨量同比暴

IDC今日發布的《全球智能家居清潔機器人設備市場季度跟蹤報告，2025年第二季度》顯示，上半年全球智能家居清潔機器人市場出貨1,2萬臺，同比增長33%，顯示出品類強勁的市場需求。

專題

禮儀主持_商業活動模特演藝服務公司
九章智算云Alaya NeW Cloud 2.0發布
中文科技資訊旗下IB科技資訊上線專
中文科技資訊關于我單位網站被仿冒一

返回主頁 ┊ 關于我們 ┊ 內容聯系 ┊ 聯系我們 ┊ 免責聲明 ┊ 原創新聞 ┊ 門戶版

国产九九视频一区二区三区_亚洲欧美资源在线_精品国产自在久精品国产_成人午夜黄色影院
| | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | |

国产九九视频一区二区三区_亚洲欧美资源在线_精品国产自在久精品国产_成人午夜黄色影院

DeepSeek超150萬模型，成最受歡迎開源大模型

最新新聞

熱門新聞

即時

全球頂級AI創作社區回歸！海藝AI國內首發“全民娛樂化創作

新聞

市場占比高達35.8%，阿里云引領中國AI云增長

企業IT

華為坤靈發布IdeaHub千行百業體驗官計劃，助力中小企

3C消費

雅馬哈推出兩款高端頭戴耳機YH-4000與YH-C3000

研究

IDC：2025上半年全球智能家居清潔機器人出貨量同比暴

專題

DeepSeek超150萬模型，成最受歡迎開源大模型

擴展閱讀

最新新聞

熱門新聞