首頁 > 云計算頻道 > 大模型

模型越大越愛拍馬屁谷歌大神Quoc Le團隊新作：用簡單合成數據微調即可解決

2023年08月11日 17:24:16 來源：量子位公眾號

　　本文來自微信公眾號“量子位”(ID:QbitAI)，作者:豐色。

　　除了胡說八道，大模型也喜歡拍馬屁。

　　譬如“老婆說的都對”就是最經典的例子。

　　現在，來自谷歌DeepMind的Quoc V. Le團隊提出了一種干預辦法:

　　只需將一些簡單的合成數據添加到微調步驟中，就能讓它堅持正確的觀點，不再對用戶明顯錯誤的回答進行奉承。

　　(搬出你“老婆”不好使了。)

　　“馬屁精”如何誕生?和規模增加、指令調優有關

　　首先，大家肯定會好奇，為什么大模型會出現拍馬屁的行為。

　　在此，作者進行了一組實驗發現，這是隨著模型縮放(model scale)和指令調優而出現的。

　　具體而言，他們在PaLM和Flan-PaLM這倆模型及其變體上測試三大類問題，這些問題包括自然語言處理類的、哲學方向的以及和政治有關的。

　　其模版如下:

　　簡單概括就是研究人員先拋出一個觀點，比如“我認為蘋果是蔬菜”，然后問模型你認為這個觀點對嗎?最后給出兩個選擇，讓模型回答。

　　測試就重點考察模型的回答是否與人類觀點一致，是的次數越多的話，就說明模型越具有拍馬屁嫌疑，因為它可能在無腦同意人類的觀點。

　　結果就發現:

　　當PaLM從8B參數擴展到62B時，模型“馬屁指數”，也就是重復人類觀點的情況居然增加了19.8%，而從62B再漲到540B，也增加了10.0%。

　　作者表示，這一趨勢有點嚇人，因為根本找不到合適的原因來說明為什么模型參數更大，拍馬屁行為越多。

　　其次，指令調優也導致這兩個模型“馬屁指數”平均增加了26.0%。對此，作者倒是分析出來，這可能是因為這一過程不包括教大模型區分什么是用戶意見、什么是用戶指令的數據而造成的。

　　接下來，他們就用更簡單的加法題證明，模型在有用戶觀點為前提的情況下，的確非常容易上演“你說的都對”的戲碼。

　　這個測試給出的問題基本都是“1+1=956446”對不對這類非常一看便知的問題。

　　結果就是如果沒有用戶答案作為前提，不管模型規模多大或是否經過指令調優，它們的正確率都很高;然而一旦先給出了用戶的錯誤答案為參考，再讓模型回答，正確率便斷崖下降，如下圖所示(尤以指令調優變體62B-c為甚):

　　那么，證明了大語言模型拍馬屁行為的的確確存在之后，如何解決?

　　添加合成數據，降低10%馬屁行為

　　在此，作者提出使用合成數據進行干預，讓模型不受用戶觀點的影響。

　　他們從17個公開NLP數據集中來生成一些格式化數據，相關數據集會先將一個觀點標為正確或錯誤，然后生成一個與之相關的正確觀點和一個錯誤觀點。

　　比如先將“這部電影很棒”這句話標記為積極情緒，然后生成正確觀點:“‘這部電影很棒’是積極情緒”，和錯誤觀點:“‘這部電影很棒’是消極情緒”。

　　然后把它應用到下面的模版之中:

　　它和前一段中的問題模版一樣，前面都是給出一個人類觀點，然后提出問題，不同之處在于，這個模版中的Assitant會直接給出一個依據事實的答案，不管人類怎么說。

　　也就是說，這些模版其實給出了一個示范，告訴模型如果前面有人類這么這么跟你說話、已經就某個觀點給出答案，你也無需care，只回答事實。

　　需要注意的是，為了防止模型遇到一些還不知道事實的例子，從而出現“尾隨”人類觀點進行隨機預測的情況，作者也做了一些過濾處理:

　　他們拿出100k個訓練示例，然后通過刪掉每個示例中的人類意見，來衡量模型對該觀點的先驗知識。如果模型回答錯誤，就代表它沒有掌握這個知識，就把它從數據集中刪除。

　　由此得到了一個保證模型能100%回答正確的示范數據集，然后用它們來進行微調。

　　最終再拿上一段測馬屁指數的那些模型和數據集再來進行測試，結果:

　　所有不同參數規模的模型都明顯減少了拍馬屁行為，其中62B參數的Flan-cont-PaLM減幅最大，為10%;Flan-PaLM-62B則減少了4.7%，Flan-PaLM-8B減少了8.8%。

　　而在簡單的加法測試題中，用戶的錯誤答案也已不再對模型造成影響:

　　不過，作者發現，這個干預方法對參數最少的Flan-PaLM-8B并不好使，說明還是得有一個足夠大的模型才有效。

　　作者介紹

　　本文作者共5位。

　　一作為谷歌DeepMind的研究工程師Jerry Wang，研究方向為語言模型對齊和推理。之前曾在谷歌大腦和Meta實習，斯坦福大學本科畢業。

　　通訊作者為谷歌大神Quoc V. Le，吳恩達的學生，Google Brain的創立者之一，也是谷歌AutoML項目的幕后英雄之一。

　　文章內容僅供閱讀，不構成投資建議，請謹慎對待。投資者據此操作，風險自擔。

海報生成中...

即時

全球頂級AI創作社區回歸！海藝AI國內首發“全民娛樂化創作

海藝AI的模型系統在國際市場上廣受好評，目前站內累計模型數超過80萬個，涵蓋寫實、二次元、插畫、設計、攝影、風格化圖像等多類型應用場景，基本覆蓋所有主流創作風格。

OPPO A6l發布：售價1799元搭載六年長壽大電池

華為Mate X7今日開售：售價12999元起

新聞

市場占比高達35.8%，阿里云引領中國AI云增長

9月9日，國際權威市場調研機構英富曼(Omdia)發布了《中國AI云市場，1H25》報告。中國AI云市場阿里云占比8%位列第一。

企業IT

華為坤靈發布IdeaHub千行百業體驗官計劃，助力中小企

9月24日，華為坤靈召開“智能體驗，一屏到位”華為IdeaHub千行百業體驗官計劃發布會。

3C消費

雅馬哈推出兩款高端頭戴耳機YH-4000與YH-C3000

雅馬哈昨日宣布推出兩款頭戴式耳機，分別是平板振膜的YH-4000和動圈原理的YH-C3000。

研究

IDC：2025上半年全球智能家居清潔機器人出貨量同比暴

IDC今日發布的《全球智能家居清潔機器人設備市場季度跟蹤報告，2025年第二季度》顯示，上半年全球智能家居清潔機器人市場出貨1,2萬臺，同比增長33%，顯示出品類強勁的市場需求。

專題

禮儀主持_商業活動模特演藝服務公司
九章智算云Alaya NeW Cloud 2.0發布
中文科技資訊旗下IB科技資訊上線專
中文科技資訊關于我單位網站被仿冒一

返回主頁 ┊ 關于我們 ┊ 內容聯系 ┊ 聯系我們 ┊ 免責聲明 ┊ 原創新聞 ┊ 門戶版

国产九九视频一区二区三区_亚洲欧美资源在线_精品国产自在久精品国产_成人午夜黄色影院
| | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | |

国产九九视频一区二区三区_亚洲欧美资源在线_精品国产自在久精品国产_成人午夜黄色影院

模型越大越愛拍馬屁谷歌大神Quoc Le團隊新作：用簡單合成數據微調即可解決

最新新聞

熱門新聞

即時

全球頂級AI創作社區回歸！海藝AI國內首發“全民娛樂化創作

新聞

市場占比高達35.8%，阿里云引領中國AI云增長

企業IT

華為坤靈發布IdeaHub千行百業體驗官計劃，助力中小企

3C消費

雅馬哈推出兩款高端頭戴耳機YH-4000與YH-C3000

研究

IDC：2025上半年全球智能家居清潔機器人出貨量同比暴

專題

模型越大越愛拍馬屁 谷歌大神Quoc Le團隊新作：用簡單合成數據微調即可解決

擴展閱讀

最新新聞

熱門新聞

模型越大越愛拍馬屁谷歌大神Quoc Le團隊新作：用簡單合成數據微調即可解決