DeepMind終結大模型幻覺？標注事實比人類靠譜、還便宜20倍，全開源

2024年03月29日 15:19:13 來源：機器之心公眾號

　　DeepMind 這篇論文一出，人類標注者的飯碗也要被砸了嗎?

　　大模型的幻覺終于要終結了?

　　今日，社媒平臺 reddit 上的一則帖子引起網友熱議。帖子討論的是谷歌 DeepMind 昨日提交的一篇論文《Long-form factuality in large language models》(大語言模型的長篇事實性)，文中提出的方法和結果讓人得出大膽的結論:對于負擔得起的人來說，大語言模型幻覺不再是問題了。

　　我們知道，大語言模型在響應開放式主題的 fact-seeking(事實尋求)提示時，通常會生成包含事實錯誤的內容。DeepMind 針對這一現象進行了一些探索性研究。

　　首先，為了對一個模型在開放域的長篇事實性進行基準測試，研究者使用 GPT-4生成 LongFact，它是一個包含38個主題、數千個問題的提示集。然后他們提出使用搜索增強事實評估器(Search-Augmented Factuality Evaluator， SAFE)來將 LLM 智能體用作長篇事實性的自動評估器。

　　對于 SAFE，它利用 LLM 將長篇響應分解為一組單獨的事實，并使用多步推理過程來評估每個事實的準確性。這里多步推理過程包括將搜索查詢發送到 Google 搜索并確定搜索結果是否支持某個事實。

　　此外，研究者提出將 F1分數(F1@K)擴展為長篇事實性的聚合指標。他們平衡了響應中支持的事實的百分比(精度)和所提供事實相對于代表用戶首選響應長度的超參數的百分比(召回率)。

　　實證結果表明，LLM 智能體可以實現超越人類的評級性能。在一組約16k 個單獨的事實上，SAFE 在72% 的情況下與人類注釋者一致，并且在100個分歧案例的隨機子集上，SAFE 的贏率為76%。同時，SAFE 的成本比人類注釋者便宜20倍以上。

　　研究者還使用 LongFact，對四個大模型系列(Gemini、GPT、Claude 和 PaLM-2)的13種流行的語言模型進行了基準測試，結果發現較大的語言模型通常可以實現更好的長篇事實性。

　　論文作者之一、谷歌研究科學家 Quoc V. Le 表示，這篇對長篇事實性進行評估和基準測試的新工作提出了一個新數據集、一種新評估方法以及一種兼顧精度和召回率的聚合指標。同時所有數據和代碼將開源以供未來工作使用。

　　方法概覽

　　LONGFACT:使用 LLM 生成長篇事實性的多主題基準

　　首先來看使用 GPT-4生成的 LongFact 提示集，包含了2280個事實尋求提示，這些提示要求跨38個手動選擇主題的長篇響應。研究者表示，LongFact 是第一個用于評估各個領域長篇事實性的提示集。

　　LongFact 包含兩個任務:LongFact-Concepts 和 LongFact-Objects，根據問題是否詢問概念或對象來區分。研究者為每個主題生成30個獨特的提示，每個任務各有1140個提示。

　　SAFE:LLM 智能體作為事實性自動評分者

　　研究者提出了搜索增強事實評估器(SAFE)，它的運行原理如下所示:

　　a)將長篇的響應拆分為單獨的獨立事實;

　　b)確定每個單獨的事實是否與回答上下文中的提示相關;

　　c) 對于每個相關事實，在多步過程中迭代地發出 Google 搜索查詢，并推理搜索結果是否支持該事實。

　　他們認為 SAFE 的關鍵創新在于使用語言模型作為智能體，來生成多步 Google 搜索查詢，并仔細推理搜索結果是否支持事實。下圖3為推理鏈示例。

　　為了將長篇響應拆分為單獨的獨立事實，研究者首先提示語言模型將長篇響應中的每個句子拆分為單獨的事實，然后通過指示模型將模糊引用(如代詞)替換為它們在響應上下文中引用的正確實體，將每個單獨的事實修改為獨立的。

　　為了對每個獨立的事實進行評分，他們使用語言模型來推理該事實是否與在響應上下文中回答的提示相關，接著使用多步方法將每個剩余的相關事實評級為「支持」或「不支持」。具體如下圖1所示。

　　在每個步驟中，模型都會根據要評分的事實和之前獲得的搜索結果來生成搜索查詢。經過一定數量的步驟后，模型執行推理以確定搜索結果是否支持該事實，如上圖3所示。在對所有事實進行評級后，SAFE 針對給定提示 - 響應對的輸出指標為「支持」事實的數量、「不相關」事實的數量以及「不支持」事實的數量。

　　實驗結果

　　LLM 智能體成為比人類更好的事實注釋者

　　為了定量評估使用 SAFE 獲得注釋的質量，研究者使用了眾包人類注釋。這些數據包含496個提示 - 響應對，其中響應被手動拆分為單獨的事實(總共16011個單獨的事實)，并且每個單獨的事實都被手動標記為支持、不相關或不支持。

　　他們直接比較每個事實的 SAFE 注釋和人類注釋，結果發現 SAFE 在72.0% 的單獨事實上與人類一致，如下圖4所示。這表明 SAFE 在大多數單獨事實上都達到了人類水平的表現。然后檢查隨機采訪的100個單獨事實的子集，其中 SAFE 的注釋與人類評分者的注釋不一致。

　　研究者手動重新注釋每個事實(允許訪問 Google 搜索，而不僅僅是維基百科，以獲得更全面的注釋)，并使用這些標簽作為基本事實。他們發現，在這些分歧案例中，SAFE 注釋的正確率為76%，而人工注釋的正確率僅為19%，這代表 SAFE 的勝率是4比1。具體如下圖5所示。

　　這里，兩種注釋方案的價格非常值得關注。使用人工注釋對單個模型響應進行評級的成本為4美元，而使用 GPT-3.5-Turbo 和 Serper API 的 SAFE 僅為0.19美元。

　　Gemini、GPT、Claude 和 PaLM-2系列基準測試

　　最后，研究者在 LongFact 上對下表1中四個模型系列(Gemini、GPT、Claude 和 PaLM-2)的13個大語言模型進行了廣泛的基準測試。

　　具體來講，他們利用了 LongFact-Objects 中250個提示組成的相同隨機子集來評估每個模型，然后使用 SAFE 獲取每個模型響應的原始評估指標，并利用 F1@K 指標進行聚合。

　　結果發現，一般而言，較大的語言模型可以實現更好的長篇事實性。如下圖6和下表2所示，GPT-4-Turbo 優于 GPT-4，GPT-4優于 GPT-3.5-Turbo，Gemini-Ultra 優于 Gemini-Pro，PaLM-2-L-IT-RLHF 優于 PaLM-2-L-IT。

　　更多技術細節和實驗結果請參閱原論文。

　　文章內容僅供閱讀，不構成投資建議，請謹慎對待。投資者據此操作，風險自擔。

海報生成中...

即時

全球頂級AI創作社區回歸！海藝AI國內首發“全民娛樂化創作

海藝AI的模型系統在國際市場上廣受好評，目前站內累計模型數超過80萬個，涵蓋寫實、二次元、插畫、設計、攝影、風格化圖像等多類型應用場景，基本覆蓋所有主流創作風格。

OPPO A6l發布：售價1799元搭載六年長壽大電池

華為Mate X7今日開售：售價12999元起

新聞

市場占比高達35.8%，阿里云引領中國AI云增長

9月9日，國際權威市場調研機構英富曼(Omdia)發布了《中國AI云市場，1H25》報告。中國AI云市場阿里云占比8%位列第一。

企業IT

華為坤靈發布IdeaHub千行百業體驗官計劃，助力中小企

9月24日，華為坤靈召開“智能體驗，一屏到位”華為IdeaHub千行百業體驗官計劃發布會。

3C消費

雅馬哈推出兩款高端頭戴耳機YH-4000與YH-C3000

雅馬哈昨日宣布推出兩款頭戴式耳機，分別是平板振膜的YH-4000和動圈原理的YH-C3000。

研究

IDC：2025上半年全球智能家居清潔機器人出貨量同比暴

IDC今日發布的《全球智能家居清潔機器人設備市場季度跟蹤報告，2025年第二季度》顯示，上半年全球智能家居清潔機器人市場出貨1,2萬臺，同比增長33%，顯示出品類強勁的市場需求。

專題

禮儀主持_商業活動模特演藝服務公司
九章智算云Alaya NeW Cloud 2.0發布
中文科技資訊旗下IB科技資訊上線專
中文科技資訊關于我單位網站被仿冒一

返回主頁 ┊ 關于我們 ┊ 內容聯系 ┊ 聯系我們 ┊ 免責聲明 ┊ 原創新聞 ┊ 門戶版

国产九九视频一区二区三区_亚洲欧美资源在线_精品国产自在久精品国产_成人午夜黄色影院
| | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | |

国产九九视频一区二区三区_亚洲欧美资源在线_精品国产自在久精品国产_成人午夜黄色影院

DeepMind終結大模型幻覺？標注事實比人類靠譜、還便宜20倍，全開源

最新新聞

熱門新聞

即時

全球頂級AI創作社區回歸！海藝AI國內首發“全民娛樂化創作

新聞

市場占比高達35.8%，阿里云引領中國AI云增長

企業IT

華為坤靈發布IdeaHub千行百業體驗官計劃，助力中小企

3C消費

雅馬哈推出兩款高端頭戴耳機YH-4000與YH-C3000

研究

IDC：2025上半年全球智能家居清潔機器人出貨量同比暴

專題

DeepMind終結大模型幻覺？標注事實比人類靠譜、還便宜20倍，全開源

擴展閱讀

最新新聞

熱門新聞