OpenAI 公司于 8 月 13 日發(fā)布新聞稿,宣布推出 SWE-bench Verified 代碼生成評(píng)估基準(zhǔn),解決了此前的局限性問題,能夠更準(zhǔn)確地評(píng)估人工智能模型在軟件工程任務(wù)中的表現(xiàn)。
SWE-bench
注:SWE-Bench 是一個(gè)用于評(píng)估 LLM 解決 GitHub 上真實(shí)軟件問題能力的基準(zhǔn)測(cè)試數(shù)據(jù)集。
它收集了來自 12 個(gè)流行的 Python 倉庫的 2294 個(gè) Issue-Pull Request 對(duì)。在測(cè)試時(shí),LLM 會(huì)拿到一個(gè)代碼庫和 issue 描述,然后生成一個(gè)補(bǔ)丁來解決 issue 描述的問題。
該基準(zhǔn)使用兩種類型的測(cè)試:
FAIL_TO_PASS 測(cè)試用于檢查問題是否已得到解決
PASS_TO_PASS 測(cè)試用于確保代碼更改不會(huì)破壞現(xiàn)有功能。
SWE-bench 的問題
OpenAI 指出了 SWE-bench 的三個(gè)主要問題:
單元測(cè)試過于嚴(yán)格:用于評(píng)估解決方案正確性的單元測(cè)試往往過于具體,有時(shí)甚至與問題無關(guān),這可能導(dǎo)致拒絕正確的解決方案。
問題描述不明確:許多樣本的問題描述不夠具體,導(dǎo)致問題是什么以及應(yīng)如何解決含糊不清。
開發(fā)環(huán)境難以設(shè)置:有時(shí)很難可靠地為代理設(shè)置 SWE-bench 開發(fā)環(huán)境,從而無意中導(dǎo)致單元測(cè)試失敗。
SWE-bench Verified
SWE-bench Verified 的主要改進(jìn)之一是使用容器化 Docker 環(huán)境開發(fā)了新的評(píng)估工具包。
這一改進(jìn)旨在使評(píng)估過程更加一致和可靠,降低與開發(fā)環(huán)境設(shè)置相關(guān)的問題發(fā)生的可能性。
例如,GPT-4o 解決了 33.2% 的樣本,而表現(xiàn)最佳的開源代理框架 Agentless 的得分翻了一番,達(dá)到 16%。
性能的提高表明,SWE-bench Verified 更好地捕捉到了人工智能模型在軟件工程任務(wù)中的真正能力。
文章內(nèi)容僅供閱讀,不構(gòu)成投資建議,請(qǐng)謹(jǐn)慎對(duì)待。投資者據(jù)此操作,風(fēng)險(xiǎn)自擔(dān)。
海報(bào)生成中...
海藝AI的模型系統(tǒng)在國(guó)際市場(chǎng)上廣受好評(píng),目前站內(nèi)累計(jì)模型數(shù)超過80萬個(gè),涵蓋寫實(shí)、二次元、插畫、設(shè)計(jì)、攝影、風(fēng)格化圖像等多類型應(yīng)用場(chǎng)景,基本覆蓋所有主流創(chuàng)作風(fēng)格。
9月9日,國(guó)際權(quán)威市場(chǎng)調(diào)研機(jī)構(gòu)英富曼(Omdia)發(fā)布了《中國(guó)AI云市場(chǎng),1H25》報(bào)告。中國(guó)AI云市場(chǎng)阿里云占比8%位列第一。
9月24日,華為坤靈召開“智能體驗(yàn),一屏到位”華為IdeaHub千行百業(yè)體驗(yàn)官計(jì)劃發(fā)布會(huì)。
IDC今日發(fā)布的《全球智能家居清潔機(jī)器人設(shè)備市場(chǎng)季度跟蹤報(bào)告,2025年第二季度》顯示,上半年全球智能家居清潔機(jī)器人市場(chǎng)出貨1,2萬臺(tái),同比增長(zhǎng)33%,顯示出品類強(qiáng)勁的市場(chǎng)需求。