科技媒體marktechpost報(bào)道,英偉達(dá)近日推出Prolonged Reinforcement Learning(ProRL)強(qiáng)化學(xué)習(xí)方法,并基于此開發(fā)出全球最佳的1.5B參數(shù)推理模型Nemotron-Research-Reasoning-Qwen-1.5B。
該模型采用強(qiáng)化學(xué)習(xí)優(yōu)化推理能力,通過擴(kuò)展訓(xùn)練步數(shù)至2000步以上,并引入涵蓋數(shù)學(xué)、編程、STEM等多領(lǐng)域的13.6萬樣本數(shù)據(jù),顯著提升性能。測試結(jié)果顯示,其在數(shù)學(xué)任務(wù)中平均提升15.7%,編程任務(wù)pass@1準(zhǔn)確率提高14.4%,STEM推理和邏輯謎題表現(xiàn)分別提升25.9%和54.8%,泛化能力突出,甚至超越部分更大規(guī)模的模型。
此次突破為強(qiáng)化學(xué)習(xí)在大型語言模型推理優(yōu)化中的應(yīng)用提供了新方向,展現(xiàn)了英偉達(dá)在AI領(lǐng)域的技術(shù)領(lǐng)先性。
文章內(nèi)容僅供閱讀,不構(gòu)成投資建議,請謹(jǐn)慎對待。投資者據(jù)此操作,風(fēng)險(xiǎn)自擔(dān)。
海報(bào)生成中...
海藝AI的模型系統(tǒng)在國際市場上廣受好評,目前站內(nèi)累計(jì)模型數(shù)超過80萬個(gè),涵蓋寫實(shí)、二次元、插畫、設(shè)計(jì)、攝影、風(fēng)格化圖像等多類型應(yīng)用場景,基本覆蓋所有主流創(chuàng)作風(fēng)格。
9月9日,國際權(quán)威市場調(diào)研機(jī)構(gòu)英富曼(Omdia)發(fā)布了《中國AI云市場,1H25》報(bào)告。中國AI云市場阿里云占比8%位列第一。
9月24日,華為坤靈召開“智能體驗(yàn),一屏到位”華為IdeaHub千行百業(yè)體驗(yàn)官計(jì)劃發(fā)布會。
IDC今日發(fā)布的《全球智能家居清潔機(jī)器人設(shè)備市場季度跟蹤報(bào)告,2025年第二季度》顯示,上半年全球智能家居清潔機(jī)器人市場出貨1,2萬臺,同比增長33%,顯示出品類強(qiáng)勁的市場需求。