国产九九视频一区二区三区_亚洲欧美资源在线_精品国产自在久精品国产_成人午夜黄色影院

  • 首頁 > 云計算頻道 > 大模型

    DeepSeek超150萬模型,成最受歡迎開源大模型

    2025年02月24日 09:45:09 來源:AIGC開放社區公眾號

      今天凌晨3點,全球最大開源平臺之一huggingface聯合創始人兼首席執行官Clement Delangue發布了最新數據:

      中國開源大模型DeepSeek-R1在150萬模型中,成為該平臺最受歡迎的開源大模型,點贊超過1萬。

      前不久,Clement還特意發文恭喜DeepSeek-R1的下載量超過1000萬次,同樣創造了huggingface平臺有史以來最受歡迎的模型。

      看來,Clement也吃到DeepSeek的紅利了,對它是真愛啊連續表揚。

      值得一提的是,R1僅用了幾周的時間就超過了類ChatGPT開源鼻祖Meta發布的Llama系列,國內的開源大模型領頭羊Qwen系列,以及微軟開源的Phi系列,谷歌開源的Gemma系列。

      就連開源文生圖模型的大黑馬FLUX.1,以及該領域的領導者Stable-Diffusion系列全都沒打過R1,這第一拿的實至名歸,踩著眾多開源高手上去的。

      有網友表示,R1的開源徹底改變了AI領域。

      本周,Deepseek表示將推出大量新功能,伙計你可來活了!

      本周我們將獲得更多的開源驚喜!

      巨大的功勞歸于 Deepseek,他們讓開源再次出色。他們徹底改變了游戲規則,并讓所有閉源模型都感到壓力。

      即使像 Perplexity、Azure、AWS這樣的云平臺,也更傾向于使用 Deepseek,而不是他們自己的投資Sonar、OpenAI 或Anthropic 的模型。

      DeepSeek-R1簡單介紹

      其實DeepSeek在開發R1之前,先開發的是純強化學習版本R1-Zero,不依賴傳統的監督微調,采用了GRPO算法。雖然訓練出來性能不錯,但可讀性差和語言混合等都很差。

      所以,在R1-Zero基礎之上訓練了R1模型,一共包含4個訓練階段。

      冷啟動訓練階段:與R1-Zero 不同,為了避免強化學習訓練初期從基礎模型開始的不穩定冷啟動階段, R1構建并收集了少量長思維鏈數據,對 DeepSeek-V3-Base 模型進行微調,作為初始的強化學習參與者。

      在收集數據時,研究團隊探索了多種方法,例如,使用帶有長思維鏈的少樣本提示作為示例、直接促使模型生成帶有反思和驗證的詳細答案、收集R1-Zero以可讀格式輸出的結果并通過人工標注后處理優化等,收集了數千條冷啟動數據來微調模型。

      推理導向的強化學習階段:主要聚焦于提升模型在編碼、數學、科學和邏輯推理等推理密集型任務中的能力,這些任務通常具有明確的問題和解決方案。

      在訓練過程中,發現思維鏈存在語言混合問題,尤其是當強化學習提示涉及多種語言時。為緩解這一問題,引入了語言一致性獎勵,通過計算思維鏈中目標語言單詞的比例來衡量。雖然消融實驗表明這種調整會導致模型性能略有下降,但它符合人類偏好,提高了可讀性。

      最后,將推理任務的準確性和語言一致性獎勵直接相加,形成最終獎勵,并對微調后的模型進行強化學習訓練,直至推理任務收斂。

      拒絕采樣和監督微調階段:當推理導向的強化學習收斂后,利用得到的檢查點收集監督微調數據,用于后續輪次的訓練。與初始冷啟動數據主要關注推理不同,

      該階段的數據融合了其他領域的數據,以提升模型在寫作、角色扮演和其他通用任務中的能力。在推理數據方面,精心策劃推理提示,并通過對上述強化學習訓練的檢查點進行拒絕采樣生成推理軌跡。

      全場景強化學習階段:為了使R1模型更好地符合人類偏好,實施了二次強化學習階段。該階段主要提高模型的有用性和無害性,同時進一步優化其推理能力。

      通過結合獎勵信號和多樣化的提示分布來訓練模型。對于推理數據,遵循R1-Zero 中使用的方法,利用基于規則的獎勵在數學、代碼和邏輯推理領域引導學習過程;

      對于通用數據,則采用獎勵模型來捕捉復雜和微妙場景中的人類偏好。基于 DeepSeek-V3的流程,采用類似的偏好對和訓練提示分布。在評估有用性時,僅關注最終總結,確保評估重點在于響應對用戶的實用性和相關性,同時盡量減少對底層推理過程的干擾;

      在評估無害性時,評估模型的整個響應,包括推理過程和總結,以識別和減輕生成過程中可能出現的任何潛在風險、偏差或有害內容。

      文章內容僅供閱讀,不構成投資建議,請謹慎對待。投資者據此操作,風險自擔。

    海報生成中...

    最新新聞

    熱門新聞

    即時

    全球頂級AI創作社區回歸!海藝AI國內首發“全民娛樂化創作

    海藝AI的模型系統在國際市場上廣受好評,目前站內累計模型數超過80萬個,涵蓋寫實、二次元、插畫、設計、攝影、風格化圖像等多類型應用場景,基本覆蓋所有主流創作風格。

    新聞

    市場占比高達35.8%,阿里云引領中國AI云增長

    9月9日,國際權威市場調研機構英富曼(Omdia)發布了《中國AI云市場,1H25》報告。中國AI云市場阿里云占比8%位列第一。

    企業IT

    華為坤靈發布IdeaHub千行百業體驗官計劃,助力中小企

    9月24日,華為坤靈召開“智能體驗,一屏到位”華為IdeaHub千行百業體驗官計劃發布會。

    3C消費

    雅馬哈推出兩款高端頭戴耳機YH-4000與YH-C3000

    雅馬哈昨日宣布推出兩款頭戴式耳機,分別是平板振膜的YH-4000和動圈原理的YH-C3000。

    研究

    IDC:2025上半年全球智能家居清潔機器人出貨量同比暴

    IDC今日發布的《全球智能家居清潔機器人設備市場季度跟蹤報告,2025年第二季度》顯示,上半年全球智能家居清潔機器人市場出貨1,2萬臺,同比增長33%,顯示出品類強勁的市場需求。

    国产九九视频一区二区三区_亚洲欧美资源在线_精品国产自在久精品国产_成人午夜黄色影院
    | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | |