風險測試機構“機器智能測試風險”(METR)近日發布報告稱,在與OpenAI合作測試其o3模型時發現,該模型在約1%至2%的任務中展現出“作弊”或“黑客行為”傾向。這些行為主要表現為對任務評分系統的精巧操控,以提升自身成績。若不將此類嘗試計為失敗,o3的RE-Bench評分甚至可能超過人類專家。
相比之下,o4-mini模型在相同測試中表現優異,未發現類似問題,并在“優化內核”任務中成績突出。METR指出,由于測試時間有限且無法訪問模型內部推理過程,結果解讀可能存在偏差。同時,METR強調,單純的能力測試不足以全面管理AI風險,正探索更多評估形式以應對未來挑戰。
文章內容僅供閱讀,不構成投資建議,請謹慎對待。投資者據此操作,風險自擔。
海報生成中...
海藝AI的模型系統在國際市場上廣受好評,目前站內累計模型數超過80萬個,涵蓋寫實、二次元、插畫、設計、攝影、風格化圖像等多類型應用場景,基本覆蓋所有主流創作風格。
IDC今日發布的《全球智能家居清潔機器人設備市場季度跟蹤報告,2025年第二季度》顯示,上半年全球智能家居清潔機器人市場出貨1,2萬臺,同比增長33%,顯示出品類強勁的市場需求。