電腦游戲《Factorio》成為 AI 能力評估的新工具

2025年03月17日 15:50:43 來源：AIbase基地

　　《Factorio》是一款復雜的電腦游戲，專注于建造與資源管理，最近成為研究人員評估人工智能能力的新工具。這款游戲能夠測試語言模型在規劃和構建復雜系統的能力，同時管理多個資源和生產鏈。

　　為此，研究團隊開發了一個名 “Factorio 學習環境”(FLE)的系統，提供了兩種不同的測試模式。“實驗模式” 包含24個結構化挑戰，設定了具體目標和有限資源，任務從簡單的兩臺機器建造到復雜的近百臺機器工廠都有。而在 “開放模式” 下，AI 代理可以探索程序生成的地圖，唯一目標是建造盡可能大的工廠。

　　代理通過一個 Python API 與《Factorio》進行交互，能夠生成代碼以執行各種操作并檢查游戲狀態。這個系統旨在測試語言模型合成程序的能力以及處理復雜系統的能力。API 允許代理執行諸如放置和連接組件、管理資源和監控生產進度等功能。

　　為了評估代理的表現，研究者使用了兩個關鍵指標:“生產評分”，用于計算總產出價值，且隨著生產鏈復雜性的增加而呈指數增長;“里程碑” 則跟蹤諸如創造新物品或研究技術等重要成就。游戲的經濟模擬考慮了資源稀缺性、市場價格和生產效率等因素。

　　研究團隊，包括來自 Anthropic 的科學家，評估了六種領先的語言模型在 FLE 環境下的表現，包括 Claude3.5Sonnet、GPT-4o 及其迷你版、DeepSeek-V3、Gemini2.0Flash 以及 Llama-3.3-70B-Instruct。在這輪測試中，未包含大型推理模型(LRMs)，但以往的基準測試表明，像 o1這樣的模型在規劃能力上表現優異，盡管自身也存在局限性。

　　測試顯示，參與評估的語言模型在空間推理、長期規劃和錯誤糾正方面面臨顯著挑戰。構建工廠時，AI 代理在高效安排和連接機器方面出現困難，導致了次優布局和生產瓶頸。戰略思維同樣成為挑戰，模型們普遍更傾向于優先考慮短期目標，而不是長期規劃。此外，盡管它們能夠處理基本的故障排查，但在面對更復雜問題時，往往陷入低效的調試循環。

　　在測試的模型中，Claude3.5Sonnet 表現最為出色，但仍未能掌握所有挑戰。在實驗模式中，Claude 成功完成了24個任務中的15個，而其他模型最多也只完成了10個。在開放測試中，Claude 的生產評分達到2456分，GPT-4o 以1789分緊隨其后。Claude 展現出復雜的《Factorio》游戲玩法，通過其戰略性制造和研究方法，快速從基礎產品轉向復雜生產過程，尤其是電鉆技術的提升，顯著提高了鐵板的生產速度。

　　研究者認為，FLE 開放且可擴展的特性，使其在未來測試更強大的語言模型時具有重要價值。他們建議擴展該環境以包含多代理場景和人類表現基準，以便提供更好的評估背景。這項工作進一步豐富了基于游戲的 AI 基準測試的集合，其中還包括 BALROG 和即將推出的 MCBench，這些都將利用《Minecraft》進行模型測試。

　　文章內容僅供閱讀，不構成投資建議，請謹慎對待。投資者據此操作，風險自擔。

海報生成中...

即時

全球頂級AI創作社區回歸！海藝AI國內首發“全民娛樂化創作

海藝AI的模型系統在國際市場上廣受好評，目前站內累計模型數超過80萬個，涵蓋寫實、二次元、插畫、設計、攝影、風格化圖像等多類型應用場景，基本覆蓋所有主流創作風格。

OPPO A6l發布：售價1799元搭載六年長壽大電池

華為Mate X7今日開售：售價12999元起

新聞

市場占比高達35.8%，阿里云引領中國AI云增長

9月9日，國際權威市場調研機構英富曼(Omdia)發布了《中國AI云市場，1H25》報告。中國AI云市場阿里云占比8%位列第一。

企業IT

華為坤靈發布IdeaHub千行百業體驗官計劃，助力中小企

9月24日，華為坤靈召開“智能體驗，一屏到位”華為IdeaHub千行百業體驗官計劃發布會。

3C消費

雅馬哈推出兩款高端頭戴耳機YH-4000與YH-C3000

雅馬哈昨日宣布推出兩款頭戴式耳機，分別是平板振膜的YH-4000和動圈原理的YH-C3000。

研究

IDC：2025上半年全球智能家居清潔機器人出貨量同比暴

IDC今日發布的《全球智能家居清潔機器人設備市場季度跟蹤報告，2025年第二季度》顯示，上半年全球智能家居清潔機器人市場出貨1,2萬臺，同比增長33%，顯示出品類強勁的市場需求。

專題

禮儀主持_商業活動模特演藝服務公司
九章智算云Alaya NeW Cloud 2.0發布
中文科技資訊旗下IB科技資訊上線專
中文科技資訊關于我單位網站被仿冒一

返回主頁 ┊ 關于我們 ┊ 內容聯系 ┊ 聯系我們 ┊ 免責聲明 ┊ 原創新聞 ┊ 門戶版

国产九九视频一区二区三区_亚洲欧美资源在线_精品国产自在久精品国产_成人午夜黄色影院
| | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | |

国产九九视频一区二区三区_亚洲欧美资源在线_精品国产自在久精品国产_成人午夜黄色影院

電腦游戲《Factorio》成為 AI 能力評估的新工具

最新新聞

熱門新聞

即時

全球頂級AI創作社區回歸！海藝AI國內首發“全民娛樂化創作

新聞

市場占比高達35.8%，阿里云引領中國AI云增長

企業IT

華為坤靈發布IdeaHub千行百業體驗官計劃，助力中小企

3C消費

雅馬哈推出兩款高端頭戴耳機YH-4000與YH-C3000

研究

IDC：2025上半年全球智能家居清潔機器人出貨量同比暴

專題

電腦游戲《Factorio》成為 AI 能力評估的新工具

擴展閱讀

最新新聞

熱門新聞