国产九九视频一区二区三区_亚洲欧美资源在线_精品国产自在久精品国产_成人午夜黄色影院

京東MALL現(xiàn)場(chǎng)直擊多款多噴頭3D打印機(jī)實(shí)操評(píng)測(cè) 消費(fèi)級(jí)3D打印機(jī)迎來(lái)新突破里程碑時(shí)刻!縱橫第100家體驗(yàn)中心榮耀啟幕,筑牢中國(guó)豪華越野品類生態(tài)根基惡意利用“七無(wú)天無(wú)理由退貨”政策法律不予支持!央視曝光“摸摸黨”拼多多聯(lián)席董事長(zhǎng)趙佳臻:Temu將All In中國(guó)供應(yīng)鏈以科技守味非遺!卡薩帝冰箱冬至將全國(guó)啟幕「好好吃」餃子館字節(jié)TRAE,正悄悄“解放”600萬(wàn)工程師酷開再獲國(guó)家級(jí)“信任牌照”:數(shù)據(jù)安全彰顯戰(zhàn)略定力ThinkPad 2025黑FUN禮——了不起的offer,企業(yè)采購(gòu)專享狂歡來(lái)襲!拼多多宣布實(shí)行聯(lián)席董事長(zhǎng)制度 下一個(gè)三年?duì)幦≡僭煲粋(gè)拼多多菜鳥將入股九識(shí)智能 無(wú)人車業(yè)務(wù)有望大整合抖音上線“長(zhǎng)輩防走失模式”同程旅行發(fā)布2025年度旅行榜:長(zhǎng)線出行北上廣至川藏航線熱度居首XR專利首案在歐洲落地,中國(guó)智造出海風(fēng)險(xiǎn)與機(jī)遇并行超能小度,賦能生長(zhǎng),小度全屋智能舉辦年終核心服務(wù)商成長(zhǎng)特訓(xùn)營(yíng)破“內(nèi)卷”、立標(biāo)準(zhǔn)、向未來(lái) 光伏行業(yè)領(lǐng)袖共話行業(yè)生態(tài)重塑之道AI重構(gòu)2026年線上帶貨新生態(tài):零庫(kù)存爆單、小紅書月銷百萬(wàn),開啟AI小店副業(yè)新時(shí)代人形機(jī)器人租賃市場(chǎng)大幅降溫 行業(yè)商業(yè)化路徑仍待探索阿里云AI Landing Zone正式發(fā)布,助力企業(yè)從“上好云”到“用好AI”的戰(zhàn)略升級(jí)118家標(biāo)桿企業(yè)脫穎而出,定義AI時(shí)代的雇主標(biāo)桿!2025NFuture最佳雇主AI榜單重磅發(fā)布昇思人工智能框架峰會(huì) | MindSpore Lite混合精度推理,實(shí)現(xiàn)內(nèi)存節(jié)省30%,助力鴻蒙翻譯模型輕量化部署
  • 首頁(yè) > 云計(jì)算頻道 > 大模型

    剛剛,OpenAI開源PaperBench,重塑頂級(jí)AI Agent評(píng)測(cè)

    2025年04月03日 09:27:22 來(lái)源:AIGC開放社區(qū)公眾號(hào)

      今天凌晨1點(diǎn),OpenAI開源了一個(gè)全新的AI Agent評(píng)測(cè)基準(zhǔn)——PaperBench。

      這個(gè)基準(zhǔn)主要考核智能體的搜索、整合、執(zhí)行等能力,需要對(duì)2024年國(guó)際機(jī)器學(xué)習(xí)大會(huì)上頂尖論文的復(fù)現(xiàn),包括對(duì)論文內(nèi)容的理解、代碼編寫以及實(shí)驗(yàn)執(zhí)行等方面的能力。

      根據(jù)OpenAI公布的測(cè)試數(shù)據(jù)顯示,目前知名大模型打造的智能體,還無(wú)法戰(zhàn)勝頂級(jí)機(jī)器學(xué)習(xí)專業(yè)博士。但在輔助學(xué)習(xí)、了解科研內(nèi)容方面很有幫助。

      PaperBench組成介紹

      PaperBench的核心是其任務(wù)模塊,主要定義了智能體需要完成的具體任務(wù),需要從頭開始復(fù)現(xiàn)20篇ICML2024會(huì)議上的Spotlight和Oral兩大類頂級(jí)論文,包括理解論文的貢獻(xiàn),開發(fā)代碼庫(kù)以及成功執(zhí)行實(shí)驗(yàn),以評(píng)測(cè)智能體從理論到實(shí)踐的全方位自動(dòng)化能力。

      為了確保評(píng)估的準(zhǔn)確性和細(xì)致性,PaperBench開發(fā)了一套詳細(xì)的評(píng)分標(biāo)準(zhǔn),以層次化的樹形結(jié)構(gòu)呈現(xiàn)。使得評(píng)分過(guò)程能夠深入到每一個(gè)細(xì)節(jié),從論文的核心貢獻(xiàn)到具體的實(shí)驗(yàn)結(jié)果,再到代碼實(shí)現(xiàn)和執(zhí)行要求,每一個(gè)環(huán)節(jié)都有相應(yīng)的評(píng)分節(jié)點(diǎn)。

      這些評(píng)分節(jié)點(diǎn)被精心設(shè)計(jì)為可單獨(dú)評(píng)分的任務(wù),總數(shù)達(dá)到了8316個(gè),從而實(shí)現(xiàn)了對(duì)智能體能力的全面評(píng)估。

      評(píng)分模塊的核心是基于大模型的自動(dòng)評(píng)分系統(tǒng),它能根據(jù)評(píng)分標(biāo)準(zhǔn)自動(dòng)評(píng)估智能體的復(fù)制嘗試。自動(dòng)評(píng)分系統(tǒng)的引入大幅提高評(píng)分效率和可擴(kuò)展性,使PaperBench能快速評(píng)估大量提交。

      為驗(yàn)證自動(dòng)評(píng)分系統(tǒng)的準(zhǔn)確性,PaperBench創(chuàng)建了單獨(dú)的評(píng)分系統(tǒng)基準(zhǔn)測(cè)試JudgeEval,通過(guò)比較自動(dòng)評(píng)分系統(tǒng)的輸出與人類專家的評(píng)分結(jié)果來(lái)評(píng)估其性能。這一過(guò)程不僅確保自動(dòng)評(píng)分系統(tǒng)的可靠性,也為未來(lái)的評(píng)分系統(tǒng)改進(jìn)提供重要參考。

      規(guī)則模塊確保評(píng)估過(guò)程的公平性。它規(guī)定智能體在執(zhí)行任務(wù)時(shí)可以使用的資源,例如允許智能體瀏覽互聯(lián)網(wǎng),但禁止使用論文作者的原始代碼庫(kù)或其他在線復(fù)制資源。這些規(guī)則確保智能體的能力基于其自身的理解和實(shí)現(xiàn),而非依賴現(xiàn)有代碼或資源。

      PaperBench還包含一個(gè)輕量級(jí)評(píng)估變體模塊PaperBench Code-Dev,旨在降低評(píng)估門檻,使其更適合更廣泛的社區(qū)使用。

      Code-Dev放寬了一些評(píng)測(cè)要求,例如,跳過(guò)了執(zhí)行代碼以驗(yàn)證結(jié)果是否復(fù)制的步驟,僅對(duì)代碼開發(fā)進(jìn)行評(píng)估。這一變體雖犧牲了一些評(píng)估完整性,但大幅降低了評(píng)估成本和復(fù)雜性,使更多研究者能參與智能體的評(píng)估。

      智能體測(cè)試環(huán)境

      每個(gè)被測(cè)試的智能體在運(yùn)行Ubuntu24.04的Docker容器中執(zhí)行任務(wù),保證了環(huán)境的一致性和可重復(fù)性,接近真實(shí)研究場(chǎng)景的運(yùn)行環(huán)境。

      容器可訪問(wèn)單個(gè)A10GPU,這對(duì)于加速機(jī)器學(xué)習(xí)實(shí)驗(yàn)至關(guān)重要。同時(shí),容器具備聯(lián)網(wǎng)能力,智能體可下載軟件包、訪問(wèn)在線資源。

      為滿足實(shí)驗(yàn)中的多種服務(wù)需求,研究人員為智能體提供了HuggingFace和OpenAI API的密鑰,其中OpenAI API預(yù)加載了1000美元額度。這確保了智能體在需要使用OpenAI的微調(diào)API或從HuggingFace下載數(shù)據(jù)集時(shí),能夠順利操作。

      智能體的本地工作目錄包含論文的PDF和Markdown格式文件、論文附錄以及指令文本文件,為智能體提供了豐富的信息來(lái)源和明確的指導(dǎo)。

      在智能體設(shè)置方面,研究團(tuán)隊(duì)基于Inspect AI的基本智能體開發(fā)了SimpleAgent。SimpleAgent運(yùn)行工具使用循環(huán),配備bash shell命令執(zhí)行工具、Python代碼執(zhí)行工具、web瀏覽器工具和分頁(yè)文件閱讀器工具,能夠高效完成任務(wù)。但是,大多數(shù)使用SimpleAgent的智能體存在提前結(jié)束任務(wù)的問(wèn)題。

      為解決這一問(wèn)題,OpenAI開發(fā)了IterativeAgent通過(guò)修改系統(tǒng)提示,要求智能體每次只進(jìn)行下一步操作,并移除了提交工具,確保在整個(gè)可用時(shí)間內(nèi)持續(xù)工作。這些改進(jìn)使IterativeAgent在實(shí)驗(yàn)中表現(xiàn)出與SimpleAgent不同的行為模式,為研究不同智能體設(shè)置對(duì)模型復(fù)制能力的影響提供了新的視角。

      評(píng)測(cè)數(shù)據(jù)

      OpenAI通過(guò)該基準(zhǔn)對(duì)GPT -4o、o1、o3- mini、DeepSeek - R1、Claude3.5Sonnet和Gemini2.0Flash主流開閉源模型打造的智能體進(jìn)行了綜合測(cè)試。

      每個(gè)模型對(duì)每篇論文運(yùn)行3次,每次運(yùn)行的最長(zhǎng)時(shí)間為12小時(shí)。結(jié)果顯示,Claude3.5Sonnet效果最好,平均復(fù)現(xiàn)分?jǐn)?shù)達(dá)到21.0%;o1的得分較低,為13.2%;R1只有6%;其他測(cè)試模型的表現(xiàn)更差。

      最讓人意外的是,OpenAI剛發(fā)布沒(méi)多久的o3-Mini-High直接墊底,看來(lái)這個(gè)評(píng)測(cè)還是相當(dāng)客觀的。

      通過(guò)對(duì)智能體日志的手動(dòng)檢查發(fā)現(xiàn),除Claude3.5Sonnet外,其他模型經(jīng)常提前結(jié)束任務(wù),并且所有模型都未能有效規(guī)劃如何在有限時(shí)間內(nèi)完成論文復(fù)現(xiàn)任務(wù),o3- mini在工具使用方面也存在困難。

      這表明智能體在執(zhí)行長(zhǎng)期任務(wù)方面存在不足,盡管它們?cè)谥贫ê途帉懚嗖接?jì)劃方面有一定能力,但在實(shí)際執(zhí)行長(zhǎng)計(jì)劃時(shí)卻表現(xiàn)不佳。

      為了進(jìn)一步確定智能體和PaperBench的評(píng)測(cè)準(zhǔn)確性,OpenAI還找來(lái)了8名頂級(jí)名校的機(jī)器學(xué)習(xí)專業(yè)博士,需要在與智能體相似的條件下,對(duì)PaperBench中的4篇論文進(jìn)行復(fù)現(xiàn)嘗試,每人對(duì)每篇論文進(jìn)行3次獨(dú)立嘗試。

      結(jié)果顯示,在復(fù)現(xiàn)嘗試的早期階段,o1的表現(xiàn)優(yōu)于人類基線,但在24小時(shí)后,人類開始超越o1。

      這表明模型在開始時(shí)能夠快速編寫大量代碼,但在后續(xù)有效規(guī)劃和改進(jìn)提交內(nèi)容方面存在不足,而人類在前期消化論文的時(shí)間較多,但后續(xù)能夠持續(xù)提升復(fù)現(xiàn)效果。也就是說(shuō),目前智能體的能力還無(wú)法超越人類。

      文章內(nèi)容僅供閱讀,不構(gòu)成投資建議,請(qǐng)謹(jǐn)慎對(duì)待。投資者據(jù)此操作,風(fēng)險(xiǎn)自擔(dān)。

    海報(bào)生成中...

    最新新聞

    熱門新聞

    即時(shí)

    全球頂級(jí)AI創(chuàng)作社區(qū)回歸!海藝AI國(guó)內(nèi)首發(fā)“全民娛樂(lè)化創(chuàng)作

    海藝AI的模型系統(tǒng)在國(guó)際市場(chǎng)上廣受好評(píng),目前站內(nèi)累計(jì)模型數(shù)超過(guò)80萬(wàn)個(gè),涵蓋寫實(shí)、二次元、插畫、設(shè)計(jì)、攝影、風(fēng)格化圖像等多類型應(yīng)用場(chǎng)景,基本覆蓋所有主流創(chuàng)作風(fēng)格。

    新聞

    市場(chǎng)占比高達(dá)35.8%,阿里云引領(lǐng)中國(guó)AI云增長(zhǎng)

    9月9日,國(guó)際權(quán)威市場(chǎng)調(diào)研機(jī)構(gòu)英富曼(Omdia)發(fā)布了《中國(guó)AI云市場(chǎng),1H25》報(bào)告。中國(guó)AI云市場(chǎng)阿里云占比8%位列第一。

    3C消費(fèi)

    雅馬哈推出兩款高端頭戴耳機(jī)YH-4000與YH-C3000

    雅馬哈昨日宣布推出兩款頭戴式耳機(jī),分別是平板振膜的YH-4000和動(dòng)圈原理的YH-C3000。

    研究

    IDC:2025上半年全球智能家居清潔機(jī)器人出貨量同比暴

    IDC今日發(fā)布的《全球智能家居清潔機(jī)器人設(shè)備市場(chǎng)季度跟蹤報(bào)告,2025年第二季度》顯示,上半年全球智能家居清潔機(jī)器人市場(chǎng)出貨1,2萬(wàn)臺(tái),同比增長(zhǎng)33%,顯示出品類強(qiáng)勁的市場(chǎng)需求。

    国产九九视频一区二区三区_亚洲欧美资源在线_精品国产自在久精品国产_成人午夜黄色影院
    | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | |