以AI對抗AI，大模型安全的“進化論”

2023年09月14日 11:44:18 來源：光錐智能

　　文丨劉雨琦

　　編｜王一粟

　　“互聯網時代，我們是更危險，還是更安全?”

　　2016年，互聯網正值高速發展之際，電梯廣告經常出現這幾個大字，兩行標語，從病毒木馬到網絡詐騙，對于安全的思考、安全防范技術的建立一直在與科技發展賽跑。同樣，大模型時代發展的早期，也引發了許多安全考量。

　　英特網被發明的十年后，互聯網防護技術和產業鏈才開始補齊，而參考了過去幾十年的經驗，在大模型誕生后不到半年的時間里，圍繞著模型安全、數據安全、內容安全的討論，就已經不絕于耳。

　　最近一周，在上海外灘大會、浦江創新論壇、國家網安周等場合，產學研界針對于大模型應用落地所帶來的數據安全問題(包括數據投毒、信息泄露、版權風險等)、模型安全問題(模型本身的安全漏洞、惡意利用等)、內容安全問題(生成內容包含違規、違法、色情等敏感信息等)、AI 倫理問題等進行了一系列的討論。

　　如何為大模型保駕護航?

　　國內一些安全廠商，如360、螞蟻、深信服、奇安信、山石科技等都在積極研發大模型安全技術。

　　大模型需要“醫生”和“保鏢”

　　大模型作為新物種的誕生，在訓練過程中要有安全監控，在大模型最后推向市場的時候，也需要一次“質檢”，質檢后流入市場，需要可控的使用方式，這都是解決安全問題的宏觀思路。

　　無論是通用大模型還是面向垂直領域的行業大模型，目前來看，模型安全的保護主要分為三個部分：

　　一是訓練階段的數據問題：如果數據采集不當、存在偏見或標簽錯誤、數據被投毒，都有可能導致大模型產生錯誤輸出、存在歧視或其他負面影響，同時數據在應用的過程中，也要面臨數據泄露、隱私曝光等風險;

　　二是模型本身的可控問題：模型的可靠性、穩定性、魯棒性等都需要進行檢驗，例如此前有用戶構造針對性語句對模型進行誘導，大模型可能生產帶有欺詐、歧視、政治傾向等風險內容;

　　三是大模型在實際場景中應用的安全問題：在實際的使用過程中，不同用戶群體的交互和應用都需要謹慎評估，尤其是金融、醫療等領域對模型輸出的正確性要求極高，如果應用不當，一石就容易激起千層浪。

　　多位業內人士向光錐智能表示：“模型安全需要一體化的技術防護體系，單獨某一環節的把控解決不了根本問題。”

　　參考互聯網安全的發展路徑，誕生了諸多“病毒查殺”軟件公司，一般檢測、定位問題往往是第一步。

　　光錐智能了解到，螞蟻的“蟻天鑒”，包含了大模型安全檢測平臺“蟻鑒2.0”、大模型風險防御平臺“天鑒”，覆蓋了從檢測到治理到防御的全鏈條。蟻鑒2.0可對大模型進行多維度的安全掃描，檢查存在的數據安全隱患、內容風險點等問題。相當于站在“黑產”角度，通過智能攻擊對抗技術，自動生成數百萬的誘導性問題，對生成式大模型進行誘導式問答，找出大模型的弱點和漏洞。

　　從技術的角度來看，蟻鑒采用了最新的“對抗智能”技術路線，使用智能對抗技術不斷向大模型“投射問題”，觀察模型生成的回答，判斷是否存在風險。通過持續“拷問”，就像醫生多次詢問病人癥狀，平臺可以盤查解析大模型的健康狀況。

　　通過生成對抗樣本，開發檢測對抗樣本的算法系統，來提升大模型安全性，已經成為一種主流技術趨勢。在行業中，已有OpenAI、谷歌、微軟、英偉達等一眾巨頭公司將對抗智能技術運用到其產品和服務中。

　　比如，在這種技術思路下，多倫多大學研發的 CleverHans 系統，就像一個專門設計來考驗防盜系統的“小偷”，它會故意添加一些小干擾，來試圖欺騙 AI 安防系統。在正常情況下，AI 系統可以準確識別“小貓”的圖片，但 CleverHan 系統偏要在“小貓”圖片上輕微修改幾個像素點，給 AI 營造一種這是一張小狗圖片的假象。假如，AI 系統被愚弄過去，那就代表其存在安全漏洞。

　　相比檢測“診斷”，“防治”也非常重要。螞蟻天鑒就像一個智能盾牌，可以防患于未然。通過智能分析用戶提問意圖來進行防御，天鑒可以攔截某些試圖誘導模型生成敏感內容的惡意問題，確保外部惡意誘導無法傳入大模型。同時，對模型輸出內容實施二次過濾，自動識別風險信息并進行干預，確保大模型輸出的內容符合規范。

　　更重要的是，數據問題是模型安全的源頭，中國信通院云計算與大數據研究所主任石霖曾在一場學術交流會上分享道：“現在有非常多安全廠商采取了安全舉措，包括對訓練數據做一些清洗，對輸入輸出內容做過濾，另外還有監測和鑒別等安全防控措施。”

　　這需要防御平臺作用在數據源頭，針對數據源頭有毒、模型深度黑盒不可控等問題。螞蟻集團大安全機器智能部內容算法總監祝慧佳介紹，目前，天鑒正在嘗試通過數據去毒、對齊訓練、可解釋性研究等手段保障模型安全。

　　用魔法打敗魔法，以AI對抗AI

　　數字世界里和人眼世界里的內容特征是不一樣的。

　　隨著大模型時代的到來，其強大能力也為安全防護技術的變革提供了新的思路。“用 AI 的力量來對抗 AI ”已經成為一個熱點方向。

　　事實上，對抗攻防思路并不是模型安全的專屬。早在上個十年，面對種種安全威脅，人工智能領域就逐步形成了“以攻測防——以攻促防——攻防一體化”的安全理念，通過模擬各類攻擊場景，不斷探索模型和系統的弱點，以此推動算法和工程端的防御能力加強。

　　只不過，以往安全防護主要依賴機器學習算法模型，這需要大量專業數據知識積累，且面臨知識盲區和小樣本冷啟動不及時的問題。利用大模型技術，可以實現更智能化的安全防控。

　　這體現在幾個方面。一是大模型能夠提供智能安全“參謀”。基于海量文本進行預訓練的大模型，可以成為優秀的“參謀”，對癥提出適當的分析和防御策略。比如，通過簡單的自然語言描述，可以快速分析安全局勢，提出應對措施建議，輔助安全團隊規劃解決方案。這類似于一個智能安全“小助手”。

　　從產業界的現狀來看，AI 安全與否如何評測，目前尚缺乏一套易用和標準化的評測工具和規則。

　　這也是大模型防御中能夠補充的另一方面，通過大模型技術學習風險知識和標準規則來提升 AI 對于風險的認知理解能力，以實現用大模型對抗大模型來進行極速防御和快速冷啟動的目的。

　　大模型安全既要“快“也要“慢”，這兩個邏輯并不矛盾。在大模型安全防御方面要“快”，要能快速檢測、查殺病毒，確保服務無毒害，這其中就包括了“數據去毒”、“安全護欄”、“AIGC風險檢測”幾個關鍵防御部分;而在大模型安全可信方面要“慢”，要能長遠的、體系的保證整個系統環境的可控、可信，這其中就包括了“安全測評”、“解構可控”、“人類社會共治”等方面。

　　以文本安全為例，大模型可以基于安全標準規則、風險領域知識和歷史風險樣本，進行訓練，提升模型對于風險標準和內容的理解力，從而實現對風險檢測能力的提升。也采用大模型生成能力結合安全知識圖譜，來構造攻擊樣本持續迭代優化檢測模型。

　　一位安全專家表示：“相比人工收集的有限樣本，大模型生成的海量多樣化樣本，將使安全檢測模型'見多識廣'，更快適應新的威脅方式。”

　　這項技術，也被螞蟻應用在了AIGC內容檢測中。祝慧佳提及道：“AIGC深度偽造檢測，也是采用以攻測防，以攻促防的思路，通過不同方式、不同風格、不同生成模型來進行生成，建立近千萬的深度偽造數據，訓練模型快速分辨內容是機器生成還是人工生成，從而實現泛化性和魯棒性更好的檢測模型。”

　　針對AIGC在運用過程中引發的問題，國際上也已經有頭部公司開始著手布局。

　　OpenAI此前表示，考慮在ChatGPT中添加數字水印技術，以降低模型被濫用帶來的負面影響;谷歌在今年的開發者大會中表示，將確保公司的每一張 AI 生成圖片都內嵌水印;今年1月初，英偉達也發布了一款名為FakeCatcher的軟件，以查出視頻中的人臉是否為深度偽造。

　　回顧互聯網發展史，混亂和高速發展往往是一對“孿生兄弟”，而正是在網絡安全產業化趨于成熟后，互聯網才真正迎來了百花齊放的應用落地。

　　同樣，模型安全并不只是某一家安全廠商的任務，而是當安全科技形成了可信圍欄后，大模型技術才真的能“飛入尋常百姓家”。

　　“大模型是非常復雜的問題，倫理、數據、訓練等領域的復雜度都是前所未有的，是一個新領域，也是擺在所有人面前的一個命題。螞蟻'蟻天鑒'在大模型安全視角上做了一些探索，但目前還有很多問題待研究解決，比如回答的內容真實性和準確性等難題，它還需要不斷迭代，不斷完善，需要全社會共同協作努力。”祝慧佳最后說道。

　　文章內容僅供閱讀，不構成投資建議，請謹慎對待。投資者據此操作，風險自擔。

海報生成中...

即時

全球頂級AI創作社區回歸！海藝AI國內首發“全民娛樂化創作

海藝AI的模型系統在國際市場上廣受好評，目前站內累計模型數超過80萬個，涵蓋寫實、二次元、插畫、設計、攝影、風格化圖像等多類型應用場景，基本覆蓋所有主流創作風格。

OPPO A6l發布：售價1799元搭載六年長壽大電池

華為Mate X7今日開售：售價12999元起

新聞

市場占比高達35.8%，阿里云引領中國AI云增長

9月9日，國際權威市場調研機構英富曼(Omdia)發布了《中國AI云市場，1H25》報告。中國AI云市場阿里云占比8%位列第一。

企業IT

華為坤靈發布IdeaHub千行百業體驗官計劃，助力中小企

9月24日，華為坤靈召開“智能體驗，一屏到位”華為IdeaHub千行百業體驗官計劃發布會。

3C消費

雅馬哈推出兩款高端頭戴耳機YH-4000與YH-C3000

雅馬哈昨日宣布推出兩款頭戴式耳機，分別是平板振膜的YH-4000和動圈原理的YH-C3000。

研究

IDC：2025上半年全球智能家居清潔機器人出貨量同比暴

IDC今日發布的《全球智能家居清潔機器人設備市場季度跟蹤報告，2025年第二季度》顯示，上半年全球智能家居清潔機器人市場出貨1,2萬臺，同比增長33%，顯示出品類強勁的市場需求。

專題

禮儀主持_商業活動模特演藝服務公司
九章智算云Alaya NeW Cloud 2.0發布
中文科技資訊旗下IB科技資訊上線專
中文科技資訊關于我單位網站被仿冒一

返回主頁 ┊ 關于我們 ┊ 內容聯系 ┊ 聯系我們 ┊ 免責聲明 ┊ 原創新聞 ┊ 門戶版

国产九九视频一区二区三区_亚洲欧美资源在线_精品国产自在久精品国产_成人午夜黄色影院
| | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | |

国产九九视频一区二区三区_亚洲欧美资源在线_精品国产自在久精品国产_成人午夜黄色影院

以AI對抗AI，大模型安全的“進化論”

最新新聞

熱門新聞

即時

全球頂級AI創作社區回歸！海藝AI國內首發“全民娛樂化創作

新聞

市場占比高達35.8%，阿里云引領中國AI云增長

企業IT

華為坤靈發布IdeaHub千行百業體驗官計劃，助力中小企

3C消費

雅馬哈推出兩款高端頭戴耳機YH-4000與YH-C3000

研究

IDC：2025上半年全球智能家居清潔機器人出貨量同比暴

專題

以AI對抗AI，大模型安全的“進化論”

擴展閱讀

最新新聞

熱門新聞