在最近的科技進展中,英偉達與麻省理工學院(MIT)和香港大學聯(lián)合推出了名為 Fast-dLLM 的新框架,顯著提升了擴散模型(Diffusion-based LLMs)的推理速度,最高可達27.6倍。這一創(chuàng)新的成果為語言模型的應用開辟了新天地。
擴散模型被視為自回歸模型的有力競爭者,采用了雙向注意力機制,使其在理論上能夠?qū)崿F(xiàn)多詞元同步生成,從而加快解碼速度。然而,實際應用中,擴散模型在推理速度上卻常常無法與自回歸模型相媲美,因為每一次生成都需要重復計算所有注意力狀態(tài),這使得計算成本居高不下。此外,在進行多詞元解碼時,詞元之間的依賴關系易被破壞,影響生成質(zhì)量,導致其在實際應用中受到限制。
為了克服這些瓶頸,英偉達的研發(fā)團隊在 Fast-dLLM 框架中引入了兩項核心創(chuàng)新:塊狀近似 KV 緩存機制和置信度感知并行解碼策略。KV 緩存通過將序列劃分為塊,預計算并存儲其他塊的激活值,減少了計算冗余;而其 DualCache 版本更是進一步提升了效率,利用相鄰推理步驟的高相似性來緩存前后綴詞元。
同時,置信度解碼策略則根據(jù)設定的閾值選擇性解碼高置信度的詞元,從而避免了同步采樣可能帶來的依賴沖突,確保生成質(zhì)量不受影響。
Fast-dLLM 在多項基準測試中表現(xiàn)出色。在 GSM8K 數(shù)據(jù)集上,該框架在生成長度為1024詞元時,8-shot 配置下實現(xiàn)了驚人的27.6倍加速,并達到了76.0% 的準確率;在 MATH 基準測試中,其加速倍數(shù)為6.5倍,準確率約為39.3%;而在 HumanEval 和 MBPP 測試中,分別實現(xiàn)了3.2倍和7.8倍的加速,準確率保持在54.3% 和接近基線水平。
Fast-dLLM 在加速的同時,準確率僅下降了1-2個百分點,展示了其在速度與質(zhì)量之間的良好平衡。這一研究成果為擴散模型在實際語言生成任務中的應用提供了更為強大的支持,使其有能力與自回歸模型進行競爭,為未來的廣泛應用奠定了堅實基礎。
文章內(nèi)容僅供閱讀,不構(gòu)成投資建議,請謹慎對待。投資者據(jù)此操作,風險自擔。
海報生成中...
海藝AI的模型系統(tǒng)在國際市場上廣受好評,目前站內(nèi)累計模型數(shù)超過80萬個,涵蓋寫實、二次元、插畫、設計、攝影、風格化圖像等多類型應用場景,基本覆蓋所有主流創(chuàng)作風格。
9月9日,國際權威市場調(diào)研機構(gòu)英富曼(Omdia)發(fā)布了《中國AI云市場,1H25》報告。中國AI云市場阿里云占比8%位列第一。
IDC今日發(fā)布的《全球智能家居清潔機器人設備市場季度跟蹤報告,2025年第二季度》顯示,上半年全球智能家居清潔機器人市場出貨1,2萬臺,同比增長33%,顯示出品類強勁的市場需求。