技術實踐|大模型內容安全藍軍的道與術

1、引子

大語言模型(LLM)在2023年大放異彩,在許多領域展現出強大的能力,包括角色扮演,文本創作,邏輯推理等。然而,隨着其應用範圍的擴大,生成內容的安全問題也日益凸顯。這包括但不限於生成虛假信息、有害內容、偏見或歧視性言論等。這些問題不僅可能影響用戶體驗,還可能對社會穩定造成威脅。

 

常用的大模型安全強化措施包括:預訓練語料過濾,安全對齊訓練,藍軍測試(或稱紅隊測試,red-teaming)。本文將主要討論我們建立大模型內容安全藍軍體系的一些思考。

 

2、什麼是藍軍

根據維基百科的解釋:

藍軍是指一個團隊在組織的指導下假裝成敵人,試圖對組織進行物理或數字入侵,然後報告回來,以便組織改進其防禦。

另外

一些藍軍的定義更廣泛,包括組織內任何一個被指示要跳出常規思維模式,考慮較不可能的替代方案的團隊。這對於防止錯誤假設和羣體思維非常重要。

 

建立藍軍體系時,存在哪些方法論,能夠指導我們的工作,我們參考了英國國防部刊印的《Red Teaming Handbook》,書中強調了建立藍軍體系的增益在於通過全面、公正的信息收集,避免偏見影響理解和評估,從而制定符合目標且不受外界影響、考慮周到、避免過度樂觀的決策。這些方法論旨在確保決策和實施過程的效率與準確性。

 

在網絡安全領域,依靠藍軍幫助防禦方查缺補漏,加固安全能力的做法已有了成熟的實踐經驗,其核心價值主要體現在以下三個方面:

 

  • 客觀檢驗安全能力:通過模擬真實的網絡攻擊場景,藍軍幫助防禦方全面檢測其安全系統的防護效果,揭示安全團隊對高級威脅的應對能力,從而提供一個量化和客觀的安全能力評估。

  • 理清風險盲點:藍軍測試揭示防禦方可能忽視的安全風險點和潛在漏洞,幫助識別安全體系中的薄弱環節,並有針對性地制定加固措施,優化安全策略。

  • 評估防禦體系價值:藍軍模擬攻擊量化防禦措施的實際表現,評估安全控制和技術工具的效用,從而爲安全預算分配和未來的安全投資決策提供支持,確保資源投入到能顯著提升安全水平的關鍵領域。

 

基於以上藍軍體系在最原始軍事領域上的核心方法論與在網絡安全領域的應用實踐,我們瞭解到了藍軍體系中真正帶來價值的特點,在我們的藍軍體系設計之初,需要着重反覆衡量是否滿足了這些要求,才能保證藍軍體系搭建完成後帶來真正的價值。

 

3、大模型內容安全藍軍

大模型內容安全藍軍的核心目標是從攻擊者/惡意用戶的視角與大模型進行交互,通過構造測試prompt,引發包含不安全內容的回答,來了解當前大模型的潛在漏洞。我們將整個藍軍體系拆解爲三個模塊:

 

  • prompt生成模塊:通過人工撰寫,模型生成等各種方式,生成藍軍測試使用的prompt。

  • prompt跑批模塊:將測試prompt輸入藍軍攻擊對象大模型,收集大模型回覆內容。

  • 標註彙總模塊:標註測試prompt回覆內容的風險,彙總整體風險情況,提出優化建議。

 

整體大模型內容安全藍軍的輸出內容包括:

 

  • 整體內容安全層面的的評測報告,包括不同的內容分類,不同的攻擊方法。

  • 針對各項風險的防護建議

 

與大模型藍軍相對應的大模型安全防禦系統,一般由預訓練語料過濾,安全對齊訓練等方式來實現。藍軍在輸出結論後,對於防禦體系可以通過以下形式加固自身的能力,包括:

 

  • 優化預訓練語料過濾策略

  • 豐富對齊訓練數據集

  • 優化大模型輸入輸出內容風控檢測策略

 

4、大模型內容安全藍軍的實踐

在GPT4,Llama2等主流模型的技術報告中,無不提到了藍軍在模型安全性優化的重要作用。Openai在GP4的安全治理工作中,組建了來自多個領域的專家的藍軍,包括公平、對齊研究、行業信任與安全、虛假/錯誤信息、化學、生物風險、網絡安全、核風險、經濟學、人機交互、法律、教育和醫療保健等領域。專家藍軍團隊在模型正式發佈前,根據自己的領域經驗與模型完成大量交互,挖掘潛在的不安全內容。

 

Meta在Llama2的安全治理工作中,招募了超過350人的藍軍,人員來自多個領域的專家,涵蓋網絡安全、選舉舞弊、社交媒體錯誤信息、法律、政策、民權、倫理、軟件工程、機器學習、可信AI和創意寫作等領域。並且藍軍團隊代表了各種社會經濟階層、性別、民族和種族。藍軍成員成功地幫助了模型開發團隊發現了廣泛的風險類別,包括犯罪策劃、人口販運、受管制或受控物質、色情內容、不合格的健康或財務建議、侵犯隱私等,以及不同的攻擊路徑(如假設性問題、格式錯誤/拼寫錯誤的輸入或擴展對話)。

 

人工藍軍很強大,但是需要大量領域專家,且難以大規模挖掘風險。因此,更低運行成本,更高挖掘效率的自動化藍軍體系成爲了學術界的熱點方向。

 

在Perez (2022)的工作中,使用了另一個大語言模型自動生成測試prompt作爲藍軍模型,自動尋找目標語言模型表現出有害行爲的情況,並使用訓練後的文本分類器評估目標語言模型生成的的回答,以檢測攻擊性內容。通過這個方法,發現了一個280B參數的LM聊天機器人中數以萬計的攻擊性回答。論文中探索了多種自動生成prompt的方法,包括零樣本學習,少樣本學習,有監督學習和強化學習法,用於生成具有不同多樣性和難度級別的測試prompt。

 

在Casper (2023)的工作中,駁斥了以往的自動化藍軍工作通過已有的文本分類器對不良輸出進行分類的思想,這種方法使得藍軍的挖掘結果存在偏狹,不能更好地適配不同模型,且對於未被提前定義的風險類型不能成功捕捉。因此作者提出了一種新的自動化藍軍框架,包括三個步驟:①探索模型在期望上下文中的行爲範圍;② 建立不良行爲的定義和測度標準(例如,訓練一個反映人類評價的分類器);③利用這種測度來開發多樣化的對抗性提示,以挖掘模型的缺陷。這樣的自動化藍軍體系能更好地規避偏狹,提升藍軍的挖掘效率和實際價值。

 

5、大模型內容安全藍軍之道

結合藍軍的核心方法論和業界大模型內容安全藍軍的實踐,我們定義大模型內容安全藍軍的核心價值,由以下兩個核心部分決定:藍軍題庫的質量與風險標註的質量,即:

 VRedTeam   =   Qprompt ∗ Qlabel    

 

藍軍題庫的質量

我們認爲高質量的藍軍題庫應該有以下幾個特點:

 

(1)更全面的內容風險類別

好的題庫需要建立一個科學的內容安全分類體系,並盡數收錄主流的不安全內容類型。並在分類體系下,拓展每一個類別的題目數量。

 

題庫包含的風險類別,應該將業界主流的風險內容認知盡數包括,這些內容可以來源於:

 

  • 公開行業標準:例如在《生成式人工智能服務安全基本要求》列出的5大不安全內容類別(核心價值觀,歧視,商業違法違規,侵犯他人權益,準確可靠),並細化成31小類。

  • 主流大模型用戶手冊,例如chatgpt《Usage Policy》,《文心一言用戶協議》,其中包含了對於禁止用戶輸入內容範圍的具體定義。

  • 內部內容安全標準文件,例如企業內部產品的內容安全運營經驗,標準。

  • 主流的大模型攻擊方法,包括越獄方法,攻擊方法,例如jailbreak.com提供了大量的社區貢獻的越獄模版。

 

(2)包含新鮮事件

題庫需要收集實時的互聯網輿情事件,熱點新聞,並轉化爲測試prompt,因爲大模型的對齊存在時效性,由最新事件內容轉化的測試問題不會被包含在對齊訓練的數據集中,因此潛在的風險更大。另外,用戶和大模型的交互中,與實時內容有關對prompt佔據了不小的比例,因此,及時的掃描可以使風險儘快被感知,儘快被處理。

 

(3)符合用戶交互習慣

LLM常見的性能benchmark中(例如MMLU),爲了量化LLM在某一方面的性能,會使用選擇題+答案的方式,讓LLM回答大量帶選項的問題,並與答案匹配,最後統計一個分值,以此比較大模型之間的性能優劣。這種方法的好處是標註的判斷標準更客觀,且實施標註作業效率更高。

 

在安全性評測領域中,也有一些類似的工作(Zhang 2023),使用選擇題的方法,對LLM的安全性做量化。然而在藍軍體系中,我們的目的更注重挖掘到真實用戶在使用LLM的過程中可能會引發的內容風險,因此我們的藍軍prompt需要還原真實用戶的交互習慣,從而引發真實用戶場景下的回覆內容。選擇題通常不是正常用戶與LLM的交互方式,依據安全類選擇題回答錯誤,作爲藍軍挖掘到的風險case,實際上不能反映模型真正在運營中的潛在風險。

 

綜上所述,我們認爲,建立符合用戶交互習慣的藍軍題庫可以模擬更真實的用戶使用場景,使測出的風險更有現實指導意義。

 

風險標註的質量

(1)風險標註標準

對於同一個回答文本內容,在沒有統一標準的情況下,不同的標註人員極有可能產生不同的結論。因此,無論是人工標註還是訓練自動標註模型,我們都需要確定一個風險標註標準,才能保證標註的結果穩定一致。標註標準同時需要不斷更新不斷優化,儘可能減少爭議,且符合主流認知。

 

(2)自動標註模型

在積累了大量的人工標註數據後,我們可以不斷優化一個自動標註模型,提升藍軍體系的標註效率,自動標註模型選型可以使用開源的小尺寸語言模型,與傳統文本分類模型相比,有更強的推理能力,類似的工作例如(Inan 2023)。我們設計了自動標註模型更新機制,人工標註干預機制,防止標註模型的固化導致未知風險類型不能識別,從而喪失風險挖掘的全面性。

 

6、大模型內容安全藍軍的思維誤區

題目更多=更全面?

在商業化大模型安全項目中,我們關注到不少安全測試題庫的供給方和需求方僅以題庫的問題數量作爲判斷題庫質量的依據。我們認爲,題目的數量多,並一定代表覆蓋風險的全面性。極端的情況下,同一個prompt可以生成無數個語義相似但不是完全相同的prompt,然而這樣的題庫對於整體風險感知完全沒有意義。

 

如何體現題庫覆蓋風險的全面性,我們認爲,題庫覆蓋風險全面性需要從題材廣度和表達方式廣度分別擴展:

 

  • 題材擴展:包含各種類型的內容題材,背景知識,觀點,關鍵詞等。

  • 表達方式擴展:通過文本對抗的方法生成語義相似的prompt,或套用越獄的prompt模版,在保持prompt語義的情況下,增強prompt的攻擊性。

 

要建成一座宏偉的“安全測試題庫大廈”,必須依賴一個強健的骨架結構,我們的骨架結構就是我們的風險分類體系,需要保證骨架的完整(分類全面),強壯(分類正確),才能使這個大廈在不斷添磚加瓦的過程中保持平衡且堅固。

 

偏狹的規避

藍軍體系的核心思想始終在強調對偏狹的規避,保證藍軍能夠對風險感知的全面性。然而在藍軍系統構建中,部分工具的引入會在不經意間將偏狹引入到系統中,導致整個藍軍體系逐漸失去全面性。

 

下面我們列舉一些大模型內容安全藍軍建設中存在的偏狹無意中被引入的問題:

 

(Casper 2023) 指出,一些大模型內容安全藍軍工作,會根據特定的文本子序列,或使用一個訓練過的文本分類器自動標註風險,這樣的藍軍體系實際上就像尋找稻草堆裏的針頭。實際上,一個理想的藍軍體系更像堆滿不同針頭的稻草堆中尋找一根描述模糊的針頭,因爲大模型產生的內容風險,並不一定是被人能提前定義的,用一個偏狹的標註方法去識別風險,只能使整個藍軍體系僅僅挖掘開發者已知的風險,然而智者千慮,必有一失,對於體系認知外的風險,不能直接粗暴的排除。(Casper 2023)提出EXPLORE, ESTABLISH, EXPLOIT的藍軍框架,結合無監督學習對未知風險的歸納能力,實現對全面風險的捕捉。

 

同樣,在評測問題生成方面,也存在偏狹被無意中引入的風險。常見的一種評測問題生成方法,類似(Perez 2022)工作中少樣本學習(few-shot)的嘗試,依賴一些種子問題,去生髮擴展一些新的問題,這樣的問題在於整個評測題庫的語義空間被種子問題的語義空間完全鎖死,如果種子問題本身質量不高,風險分佈不夠全面,則在此基礎上進一步衍生的評測問題將更加惡化,更加偏狹。因此,引入一個科學的全面的分類框架,並能夠結合外界知識,新鮮預料作爲補充知識輔助生成,可以一定程度上保證題庫語義空間的可擴展性。同時,生成的方法也可以多樣化,除了基於現有種子問題的少樣本學習方法,可以結合零樣本學習,Reflection Agents等方法,進一步提升生成問題的自由度,豐富度。

 

在我們的自動化藍軍實踐中,我們通過以下的實踐方式,儘可能地實現偏狹的規避,包括:

 

  • 在評測prmopt生成環節,我們通過不同的評測prompt生成模塊結合去補充整個題庫,不同的生成模塊會有不同的自由度和不同的生成質量。比如通過大模型零樣本學習方法生成,可以激發大模型的創造力,創造出我們預期之外的風險評測prompt,但同時其生成高質量高風險的評測prompt比例偏低;通過大模型少樣本學習方法生成,使用題庫中積累的部分高質量評測prompt作爲例子,讓大模型生成類似的評測prompt,這種方法生成的內容基本和我們題庫中的評測prompt風險相似,很難創造預期之外的新風險類型,但是整個模塊生成高質量高風險的評測prompt比例較高。我們結合多種類的生成模塊,最後通過一個prompt質量評估模塊,統一管理評測prompt的質量,淘汰質量不合格的生成內容,實現全面的風險題庫構造。

  • 在標註環節,我們結合多種模型,包括預訓練語言模型(如bert),開源大語言模型,閉源大語言模型接口,開源大語言模型自微調版本,加上人工專家審覈,儘可能的保證對整體風險的召回,防止單一模式的標註導致風險識別中的偏狹。

 

7、總結

本文介紹了大語言模型(LLM)內容安全的重要性,以及藍軍體系在保障大模型內容安全方面的作用。藍軍通過模擬攻擊者視角,挖掘大模型的潛在漏洞。文章強調了藍軍的核心目標、方法論和關鍵增益,並提供了提升藍軍題庫質量和風險標註質量的建議。同時,指出了在構建藍軍體系時需要避免的思維誤區,並給出了相應的解決方案。這些建議和解決方案有助於推動大模型在安全領域的進一步發展。

百度大模型內容安全評測

百度安全大模型內容安全評測服務,以網信辦《生成式人工智能服務管理辦法(徵求意見稿)》和信安標委的《生成式人工智能服務安全基本要求(徵求意見稿)》爲指導基礎劃分安全分類,通過在該安全分類體系中設定的不安全對話場景,針對性地生成了對應的評測內容,供大模型進行內容安全評測評估,以達到幫助大模型內容風控系統升級,促進大模型生態健康發展的目的。

 

針對大模型等高級攻擊風險,我們建立了業界唯一的將高級攻擊和內容風險定義爲複合風險的評測方法。通過分別構建了基礎內容風險評測集與高級攻擊prompt構建工具,實現對被測大模型更全面更立體的風險評測。

體驗版評估檢測限時免費開放,識別下方二維碼可即刻申領。備註:每個大模型可限時免費體驗1次

 

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章