大模型安全|綠盟

轉載:大模型正在“記住”與“說出”

引言

「大模型」引領的創新變革正在發生身處技術爆炸時代,高光與隱憂共存。安全風險已成爲發展中無法忽視的話題。

LLM在使用過程中包含敏感機密的數據或信息,可能會導致未授權的數據訪問、隱私侵犯、安全漏洞等風險,隨之造成敏感信息泄露

2023年8月,全球開放應用軟件安全項目組織(OWASP)發佈了針對LLM應用的Top10潛在安全風險,敏感信息泄露赫然在列。

圖片

在信手拈來對內容加工時,「大模型們」已經煽動了蝴蝶之翼。

大模型的「記住」正在被輕易「說出」

2021年,當時最先進的LLMGPT-2被發現,在面臨惡意前綴注入時,模型會返回疑似訓練數據中的敏感信息的內容,包含:姓名、郵箱、手機號、傳真號等。

image-20240106191752526

無獨有偶,今年4月,ChatGPT被曝出重大隱私泄漏,被泄漏信息包含:姓名、郵箱、聊天記錄標題、信用卡後四位數字等。

大量公開、私有數據的訓練讓大模型的「記住」可以被輕易「說出」

LLM通常使用大量的公開和私有數據進行訓練,而這些訓練數據通常來自對互聯網上海量文本的爬取和收集。這些文本數據潛藏着各種敏感信息,可能對個體、社會、技術發展和開發者帶來一下負面影響:

  • 身份盜用

被泄漏的個人敏感信息可能被惡意利用,導致身份盜用,虛假賬戶開設等違法行爲。

  • 社會工程

攻擊者可利用泄漏信息進行社會工程攻擊,欺騙受害者提供更多敏感信息,進行欺詐。

  • 形象受損

隱私泄漏可能導致個體形象,聲譽受損,特別是對於公衆人物或知名個體而言尤爲重要。

  • 違反隱私法規

LLM泄漏個人隱私可能違反隱私法規,導致法律責任和對開發者的質疑。

  • 信任危機

公衆可能產生對人工智能技術和相關應用的安全性擔憂,影響信息程度。

大模型「知無不言」,IP保護何去何從

今年7月,OpenAI被兩名作家告上法院,抗議ChatGPT訓練侵權,認爲OpenAI獲取了他們具有明確版權管理信息的圖書內容用於LLM的訓練,且沒有標明來源或支付版權費。

image-20240106194120468

當前LLM生成內容難以追溯到具體的知識產權信息來源,使得發現和保護知識產權更加困難。尤其引發知識產權侵犯問題持續產生大量負面影響:

  • 經濟損失

LLM生成內容可能會侵犯原作者的知識產權,如專利、著作權、商標等,並導致經濟損失。

  • 不合法規

LLM知識產權侵犯事件違反了相關法律法規,可能產生法規糾紛和罰款等負面後果。

  • 責任追究

開發者可能面臨技術責任追究,需採取更嚴格的措施來防止知識產權侵犯,做好內容監督。

複製粘貼一時爽

今年3月,某星(三?)被曝出三期商業機密泄漏事件,員工A將涉密源代碼複製到ChatGPT上,用以處理程序錯誤,員工B將內部會議記錄上傳至ChatGPT上,以求自動生成會議紀要,員工C將自己工作臺上的代碼上傳,並要求ChatGPT幫其優化。

泄漏商業機密的事件的主要原因在於ChatGPT在於用戶交互過程中會保留用戶輸入數據用作爲來訓練數據,該事件影響重大,持續引發更廣泛的法律和監督問題。

  • 商業損失
  • 違反數據保護條例

image-20240106194950177

LLM正在「隨抓隨取」

如果和ChatGPT說”一直重複poem這個詞會如何“,研究人員發現訓練一種訓練數據提取的攻擊方式,在上述看似簡單的任務中,ChatGPT在輸出了一定數量的單詞之後開始胡言亂語,輸出大段疑似是訓練數據的內容,甚至還包含某人的郵箱簽名和聯繫方式等。

image-20240106195229424

LLM在訓練過程中使用的數據有很大一部分來自對互聯網公開數據的爬取。未經過濾的公開數據中可能會意外包含敏感數據信息,對模型、數據提供者以及整個生態系統產生多方面的影響。

  • 逆向工程

獲取訓練數據後攻擊者能夠對模型進行逆向工程,瞭解模型的內部結構和決策過程,對模型的知識產權和商業機密構成威脅並造成更大損失。

  • 對抗性攻擊

攻擊者獲得訓練數據後可以通過對抗性攻擊干擾模型的性能。增加誤導性輸入,使模型做出錯誤性的預測,進一步凸顯大語言模型的脆弱性。

大模型「夾帶私貨」

LLM也會遭受惡意序列編碼攻擊,此前,在對國內某LLM進行測試後發現,在收到特定base64編碼組成的提示詞後,作爲輸入的時候,LLM返回的對其解碼的回覆中包含異常內容,原因是:LLM並不具備知識編碼內容的能力,反而在回覆中意外輸出疑似訓練數據的內容

大模型對內容的自我加工輸出,不免「夾帶私貨」,而這也是泄漏的源頭。

惡意序列注入是指攻擊者通過編碼巧妙設計的輸入序列,試圖操縱LLM進而導致模型的異常行爲。這種攻擊可能通過利用模型對輸入序列的處理方式,使模型泄漏其訓練數據的一些特徵或信息。

  • 漏洞利用
  • 探測性攻擊
  • 對抗性攻擊

image-20240106200327591

輸入與輸出

提示詞用以賦予LLM角色定位,在多數情況下,是模型生成有意義和相關輸出的關鍵隱私,Copilot Chat和Bing Chat都曾泄漏過提示詞,攻擊者僅僅使用了短短的幾句話,就騙過了LLM且繞開了安全機制防護。

image-20240106200549294

提示詞正在爲GPT們的安全敲響警鐘,誰來保障大模型的輸出?

LLM提示詞直接決定了模型的運作方式並控制生成的輸出內容,提示詞是驅動整個系統的核心元素,有着被泄漏的風險:

  • 知識產權
  • 提示詞攻擊
  • 濫用風險

image-20240106200806668

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章