4月24日,昆侖萬維宣布正式開源其多模態推理模型Skywork-R1V2.0(以下簡稱R1V2.0)。這一升級版本在視覺與文本推理能力上均實現了顯著提升,特別是在高考理科難題的深度推理和通用任務場景中表現出色,堪稱當前最均衡兼顧視覺與文本推理能力的開源多模態模型。
R1V2.0的開源,不僅是昆侖萬維在多模態領域技術實力的體現,也為全球開發者和研究者提供了強大的工具,推動多模態生態建設。該模型在多個權威基準測試中刷新了開源SOTA紀錄,展現出與商業閉源模型相媲美的能力。
R1V2.0在中文場景下的表現尤為突出,特別是在理科學科題目(數學、物理、化學)的推理效果上,堪稱免費AI解題助手。該模型不僅在MMMU上取得73.6分的優異成績,刷新開源SOTA紀錄,還在Olympiad Bench上達到62.6分,顯著領先其他開源模型。此外,在MathVision、MMMU-PRO與MathVista等多項視覺推理榜單中,R1V2.0均表現優異,多項能力已可媲美閉源商業模型。
在文本推理方面,R1V2.0在AIME2024和LiveCodeBench等挑戰中分別取得了78.9分和63.6分,展現出人類專家級數學與代碼理解能力。這些成績表明,R1V2.0不僅在視覺推理上表現出色,在文本推理方面也具備卓越的能力。
Skywork-VL Reward模型為多模態強化學習提供了高質量的獎勵信號,能夠精準評估多模態推理模型長序列輸出的整體質量。這一模型在視覺獎勵模型評測榜單VL-RewardBench中取得了73.1的SOTA成績,同時在純文本獎勵模型評測榜單RewardBench中也斬獲了高達90.1的優異分數,全面展示了其在多模態和文本任務中的強大泛化能力。
MPO機制則通過引入多種損失函數協同優化,解決了大模型訓練中“深度推理提升”與“通用能力保持”的難題。R1V2.0借助Skywork-VL Reward提供的偏好信號,引導模型進行偏好一致性優化,從而確保模型在多任務、多領域下具備良好的通用適應能力。此外,R1V2.0在訓練深度推理能力時,采用了基于規則的群體相對策略優化GRPO方法,通過同組候選響應之間的相對獎勵比較,引導模型學會更精準的選擇和推理路徑。
文章內容僅供閱讀,不構成投資建議,請謹慎對待。投資者據此操作,風險自擔。
海報生成中...
海藝AI的模型系統在國際市場上廣受好評,目前站內累計模型數超過80萬個,涵蓋寫實、二次元、插畫、設計、攝影、風格化圖像等多類型應用場景,基本覆蓋所有主流創作風格。
IDC今日發布的《全球智能家居清潔機器人設備市場季度跟蹤報告,2025年第二季度》顯示,上半年全球智能家居清潔機器人市場出貨1,2萬臺,同比增長33%,顯示出品類強勁的市場需求。