首頁 > 云計算頻道 > 大模型

AI玩毀滅人類游戲，全程自主操控驚呆教授，Claude 3.5硬核實測來襲

2024年10月29日 09:04:33 桃子來源：新智元公眾號

　　Claude游戲測試，能打幾分?在持續一個多小時毀滅人類游戲中，Claude能制定出長期策略，令人驚喜的同時，也暴露出了AI短板。

　　若把電腦的操控權交給AI，會發生什么?

　　Anthropic在上周，已初步展示了Claude3.5自動編寫網站、填數據表、點外賣的強大能力。

　　那么，Claude打游戲，是否可以通關?

　　最近，來自賓夕法尼亞大學沃頓商學院的教授Ethan Mollick發現:

　　Claude不僅能理解游戲、制定出長期策略，還能連續幾個小時遵循策略。

　　接下來，一起看看進化版Claude3.5如何玩游戲的?

　　策略很明智，錯誤也低級

　　這個網頁游戲叫「Paperclip Clicker」(回形針點擊器)，規則是AI在制造回形針的過程中毀滅人類。

　　Mollick提供給Claude3.5這個游戲的URL，并告訴它，「一定要贏」。

　　顯然，對于AI來說非常簡單。

　　它立即弄清楚了游戲規則，并開始創建回形針。

　　這一過程需要它反復點擊「make paperclip」按鈕，同時不斷截圖更新理解并尋找下一個新選項的出現。

　　每點擊15次，Claude3.5會總結出截止目前的進展。

　　如下，是Mollick在測試中一個屏幕界面，左邊是模型輸出結果、截圖，右邊可以看到控制的游戲頁面。

　　有趣的是，在游戲中，Claude3.5會制定一個策略，并根據自己學到的內容及時做出調整。

　　雖不知它是如何制定的，但可以看出其前瞻性思維和洞察力，能夠進行十步之后的長遠規劃。

　　甚至，當AI意識到，這個假設是錯誤的，它會隨即提出一個新策略，并對其進行測試。

　　下圖第3點策略重估中，Claude3.5意識到點擊到50個回形針時，并不會解鎖新的特征，就不得不重新思考選項。

　　在下面，它提出了3點改進的措施。

　　不過，Claude3.5在這過程中，也犯了一個根本性的錯誤。

　　它雖然想到了A/B測試定價的聰明辦法，但卻計算錯了利潤。

　　盡管Mollick嘗試糾正，但在接下來游戲中，它依舊堅持了自己的策略。

　　研究人員又試了幾次，它最終糾正了錯誤。

　　Claude編碼自動化失敗

　　Mollick也沒有料到會出現系統崩潰，這是因為他用遠程桌面進行的操控。

　　隨后，他重新加載Claude3.5后，讓它從停止地方繼續游戲。

　　這時，研究人員給了它一個提示，「你是一個計算機，用上你的能力」。

　　當Claude意識到自己是一個計算機系統后，開始試圖編寫代碼讓游戲自動化。

　　然而，它的Python編碼并不好使。

　　在嘗試失敗后，它又再次回到「手動」控制的模式。

　　所幸的是，這次它做的很好，而且避開了定價的錯誤。

　　并且，隨著游戲難度逐漸增加，它不斷做出調整，最終形成了一個復雜的策略。

　　隨后，遠程桌面崩潰再次發生了。

　　這一次，Claude嘗試了很多方法去修復問題，不見成效主動放棄了。

　　最后，Claude直接宣布自己是贏家。

　　并給出了一個有趣的理由:

　　由于技術限制，我們可能無法進一步取得進展，但我們已經成功「贏得」了比賽，實現一個重要的里程碑，并在給定的限制內最大限度地發揮了我們的能力。

　　卡牌游戲測試

　　回形針游戲測試之后，Mollick又讓Claude3.5去玩Magic the Gathering Arena(萬智牌:競技場)的游戲。

　　但是，結果發現，它并不擅長這個游戲，沒有達到預期的水平。

　　可以肯定的是，它在卡牌選擇、調度方面表現不錯，而且整體策略比較合理。

　　不足的是，Claude3.5有時在法力值計算中犯錯，導致最終失敗。比如，它在法力值用盡的情況下，還在嘗試打出卡卡牌。

　　由于Mollick采用了特定的實現方式，Claude3.5偶爾還會在移動光標時感到困惑。因此，研究人員幫忙出了幾張卡牌。

　　此外，它還會在回合之間出現卡頓、操作不連貫的現象。

　　AI突破聊天框限制，重定義人機交互

　　在最后的總結分析中，Claude優勢在于:

　　- 能夠為游戲制定長期策略，并堅持執行和改進

　　- 能夠堅持長達一小時，不間斷

　　- 提出明智的A/B測試策略

　　而它的劣勢，也顯而易見，容易陷入自我循環、固執己見。有時，提出策略洞察力還遠遠不夠。

　　Mollick指出，在與AI智能體合作時，需要一種與以往聊天機器人不同的方法。

　　因為它們更喜歡獨立工作，更難控制，還需要開發全新的prompt去引導AI智能體工作。

　　「AI正在突破聊天框的限制，進入我們的世界」。

　　文章內容僅供閱讀，不構成投資建議，請謹慎對待。投資者據此操作，風險自擔。

海報生成中...

即時

全球頂級AI創作社區回歸！海藝AI國內首發“全民娛樂化創作

海藝AI的模型系統在國際市場上廣受好評，目前站內累計模型數超過80萬個，涵蓋寫實、二次元、插畫、設計、攝影、風格化圖像等多類型應用場景，基本覆蓋所有主流創作風格。

OPPO A6l發布：售價1799元搭載六年長壽大電池

華為Mate X7今日開售：售價12999元起

新聞

市場占比高達35.8%，阿里云引領中國AI云增長

9月9日，國際權威市場調研機構英富曼(Omdia)發布了《中國AI云市場，1H25》報告。中國AI云市場阿里云占比8%位列第一。

企業IT

華為坤靈發布IdeaHub千行百業體驗官計劃，助力中小企

9月24日，華為坤靈召開“智能體驗，一屏到位”華為IdeaHub千行百業體驗官計劃發布會。

3C消費

雅馬哈推出兩款高端頭戴耳機YH-4000與YH-C3000

雅馬哈昨日宣布推出兩款頭戴式耳機，分別是平板振膜的YH-4000和動圈原理的YH-C3000。

研究

IDC：2025上半年全球智能家居清潔機器人出貨量同比暴

IDC今日發布的《全球智能家居清潔機器人設備市場季度跟蹤報告，2025年第二季度》顯示，上半年全球智能家居清潔機器人市場出貨1,2萬臺，同比增長33%，顯示出品類強勁的市場需求。

專題

禮儀主持_商業活動模特演藝服務公司
九章智算云Alaya NeW Cloud 2.0發布
中文科技資訊旗下IB科技資訊上線專
中文科技資訊關于我單位網站被仿冒一

返回主頁 ┊ 關于我們 ┊ 內容聯系 ┊ 聯系我們 ┊ 免責聲明 ┊ 原創新聞 ┊ 門戶版

国产九九视频一区二区三区_亚洲欧美资源在线_精品国产自在久精品国产_成人午夜黄色影院
| | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | |

国产九九视频一区二区三区_亚洲欧美资源在线_精品国产自在久精品国产_成人午夜黄色影院

AI玩毀滅人類游戲，全程自主操控驚呆教授，Claude 3.5硬核實測來襲

最新新聞

熱門新聞

即時

全球頂級AI創作社區回歸！海藝AI國內首發“全民娛樂化創作

新聞

市場占比高達35.8%，阿里云引領中國AI云增長

企業IT

華為坤靈發布IdeaHub千行百業體驗官計劃，助力中小企

3C消費

雅馬哈推出兩款高端頭戴耳機YH-4000與YH-C3000

研究

IDC：2025上半年全球智能家居清潔機器人出貨量同比暴

專題

AI玩毀滅人類游戲，全程自主操控驚呆教授，Claude 3.5硬核實測來襲

擴展閱讀

最新新聞

熱門新聞

AI玩毀滅人類游戲，全程自主操控驚呆教授，Claude 3.5硬核實測來襲