人工智能數據安全白皮書_2019

版權聲明 本白皮書版權屬於中國信息通信研究院安全研究所,並受法律保護。轉載、摘編或利用其它方式使用本白皮書文字或者觀點的,應註明“來源:中國信息通信研究院安全研究所”。違反上述聲明者,中國信息通信研究院安全研究所將追究其相關法律責任。

人工智能作爲引領新一輪科技革命和產業變革的戰略性技術,已成爲世界主要國家謀求新一輪國家科技競爭主導權的關鍵領域。隨着政府人工智能戰略佈局的落地實施,全球人工智能發展正進入技術創新迭代持續加速和融合應用拓展深化的新階段,深刻改變着國家政治、經濟、社會、國防等領域的運行模式,對人類生產生活帶來翻天覆地的變化。

數據作爲驅動本輪人工智能浪潮全面興起的三大基礎要素之一,數據安全風險已成爲影響人工智能安全發展的關鍵因素。與此同時,人工智能應用也給數據安全帶來嚴峻挑戰,如何應對人工智能場景下的數據安全風險日漸成爲國際人工智能治理的重要議題。部分國家已率先探索人工智能數據安全風險的前瞻研究和主動預防,並積極推動人工智能在數據安全領域應用,力求實現人工智能與數據安全的良性互動發展。

本白皮書從人工智能數據安全的內涵出發,首次提出人工智能數據安全的體系架構,在系統梳理人工智能數據安全風險和安全應用情況的基礎上,總結了國內外人工智能數據安全治理現狀,研究提出了我國人工智能數據安全治理建議。

目 錄
一、 人工智能數據安全概述
(一) 人工智能安全
(二) 人工智能數據安全內涵
(三) 人工智能數據安全體系架構
二、 人工智能數據安全風險
(一) 人工智能自身面臨的數據安全風險
(二) 人工智能應用導致的數據安全風險
(三) 人工智能應用加劇的數據治理挑戰
三、 人工智能數據安全應用
(一) 人工智能與數據安全治理
(二) 人工智能在數據安全治理中的應用
四、 國內外人工智能數據安全治理動態
(一) 國內外人工智能數據安全戰略規劃情況
(二) 國內外人工智能數據安全倫理規範情況
(三) 國內外人工智能數據安全法律制定情況
(四) 國內外人工智能數據安全技術發展情況
(五) 國內外人工智能數據安全標準規範情況
五、 人工智能數據安全治理建議
(一) 明晰發展與安全並舉的治理思路
(二) 引導社會遵循人工智能倫理規範
(三) 建立人工智能數據安全法律法規
(四) 完善人工智能數據安全監管措施
(五) 健全人工智能數據安全標準體系
(六) 創新人工智能數據安全技術手段
(七) 培養複合人工智能數據安全人才

一、 人工智能數據安全概述

(一) 人工智能安全

當前,由人工智能引領的新一輪科技革命和產業變革方興未艾,正在對經濟發展、社會進步、國家治理等方面產生重大而深遠的影響。世界主要國家和全球產業界高度重視並積極佈局,人工智能迎來新的發展浪潮。然而,技術進步往往是一把“雙刃劍”,本項目組在《人工智能安全白皮書(2018 年)》中提出人工智能因其技術的侷限性和應用的廣泛性,給網絡安全、數據安全、算法安全和信息安全帶來風險,並對國家政治、軍事和社會安全帶來諸多挑戰。與此同時,人工智能因其突出的數據分析、知識提取、自主學習、智能決策等能力,可在網絡防護、數據管理、信息審查、智能安防、金融風控、輿情監測等網絡信息安全領域和社會公共安全領域有許多創新性應用。爲有效管控人工智能安全風險並積極促進人工智能技術在安全領域應用,可從法規政策、標準規範、技術手段、安全評估、人才隊伍、可控生態等方面構建人工智能安全管理體系。

clipboard.png

(二) 人工智能數據安全內涵

1、人工智能與數據

人工智能與數據相輔相成、互促發展。一方面,海量優質數據助力人工智能發展。現階段,以深度學習爲代表的人工智能算法設計與優化需要以海量優質數據爲驅動。谷歌研究提出,隨着訓練數據數量級的增加,相同機器視覺算法模型的性能呈線性上升。牛津大學國際發展研究中心將大數據質量和可用性作爲評價政府人工智能準備指數的重要考察項。美國歐亞集團諮詢公司將數據數量和質量視爲衡量人工智能發展潛力的重要評價指標。另一方面,人工智能顯著提升數據收集管理能力和數據挖掘利用水平。人工智能在人們日常生活和企業生產經營中大規模應用,獲取、收集和分析更多用戶和企業數據,促進人工智能語義分析、內容理解、模式識別等方面技術能力進一步優化,更好地實現對收集的海量數據進行快速分析和分類管理。而且,人工智能對看似毫不相關的海量數據進行深度挖掘分析,發現經濟社會運行規律、用戶心理和行爲特徵等新知識。基於新知識,人工智能進一步提升對未來的預測和對現實問題的實時決策能力,提升數據資源利用價值,優化企業經營決策、創新經濟發展方式、完善社會治理體系。

2、人工智能數據安全

數據安全是人工智能安全的關鍵。數據成爲本輪人工智能浪潮興起發展的關鍵要素。人工智能算法設計與優化需要以海量優質數據資源爲基礎。數據質量和安全直接影響人工智能系統算法模型的準確性,進而威脅人工智能應用安全。與此同時,人工智能顯著提升數據收集管理能力和數據價值挖掘利用水平。人工智能這些能力一旦被不當或惡意利用,不僅威脅個人隱私和企業資產安全,甚至影響社會穩定和國家安全。而且,人工智能、大數據與實體經濟不斷深度融合,成爲推動數字經濟和智能社會發展的關鍵要素。人工智能大規模應用間接促使數據權屬問題、數據違規跨境等數據治理挑戰進一步加劇。

人工智能爲數據安全治理帶來新機遇。人工智能驅動數據安全治理加速向自動化、智能化、高效化、精準化方向演進。人工智能自動學習和自主決策能力可有效緩解現有數據安全技術手段對專業人員分析判斷的高度依賴,實現對動態變化數據安全風險的自動和智能監測防護。人工智能卓越的海量數據處理能力可有效彌補現有數據安全技術手段數據處理能力不足的缺陷,實現對大規模數據資產和數據活動的高效、精準管理和保護。人工智能賦能數據安全治理,助力數據大規模安全應用,將有力推動經濟社會數字化轉型升級。

基於以上分析,項目組認爲,人工智能數據安全內涵包含:一是應對人工智能自身面臨和應用導致及加劇的數據安全風險與治理挑戰;二是促進人工智能在數據安全領域中的應用;三是構建人工智能數據安全治理體系,保障人工智能安全穩步發展。

(三) 人工智能數據安全體系架構

clipboard.png

基於對人工智能數據安全內涵分析,項目組提出覆蓋人工智能數據安全風險、人工智能數據安全應用、人工智能數據安全治理三個維度的人工智能數據安全體系架構。其中,人工智能數據安全風險是人工智能數據安全治理的起因, 包含人工智能自身面臨的數據安全風險,人工智能應用導致的數據安全風險,人工智能應用加劇的數據治理挑戰。本白皮書重點分析人工智能相關特有數據安全風險與治理挑戰。人工智能數據安全應用是人工智能技術用於數據安全治理, 包含人工智能技術在精準化數據安全策略制定、自動化數據資產安全管理、智能化數據活動安全保護以及高效化數據安全事件管理方面的應用。人工智能數據安全治理是應對人工智能數據安全風險和促進人工智能數據安全應用的體系化方案, 包含國家戰略、倫理規範、法律法規、監管政策、標準規範、技術手段、人才隊伍等方面。

二、 人工智能數據安全風險

(一) 人工智能自身面臨的數據安全風險

訓練數據污染可導致人工智能決策錯誤。數據投毒通過在訓練數據里加入僞裝數據、惡意樣本等破壞數據的完整性,進而導致訓練的算法模型決策出現偏差。數據投毒主要有兩種攻擊方式:一種是採用模型偏斜方式,主要攻擊目標是訓練數據樣本,通過污染訓練數據達到改變分類器分類邊界的目的。例如,模型偏斜污染訓練數據可欺騙分類器將特定的惡意二進制文件標記爲良性。另外一種是採用反饋誤導方式,主要攻擊目標是人工智能的學習模型本身,利用模型的用戶反饋機制發起攻擊,直接向模型“注入”僞裝的數據或信息,誤導人工智能做出錯誤判斷。隨着人工智能與實體經濟深度融合,醫療、交通、金融等行業訓練數據集建設需求迫切,這就爲惡意、僞造數據的注入提供了機會,使得從訓練樣本環節發動網絡攻擊成爲最直接有效的方法,潛在危害巨大。在自動駕駛領域,數據投毒可導致車輛違反交通規則甚至造成交通事故;在軍事領域,通過信息僞裝的方式可誘導自主性武器啓動或攻擊,從而帶來毀滅性風險。

運行階段的數據異常可導致智能系統運行錯誤。一是人爲構造對抗樣本攻擊,導致智能系統產生錯誤的決策結果。人工智能算法模型主要反映了數據關聯性和特徵統計,而沒有真正獲取數據因果關係。針對算法模型這一缺陷,對抗樣本通過對數據輸入樣例添加難以察覺的擾動,使算法模型以高置信度給出一個錯誤的輸出。對抗樣本攻擊可實現逃避檢測,例如在生物特徵識別應用場景中,對抗樣本攻擊可欺騙基於人工智能技術的身份鑑別、活體檢測系統。2019 年 4 月,比利時魯汶大學研究人員發現,藉助一張設計的打印圖案就可以避開人工智能視頻監控系統。二是動態環境的非常規輸入可導致智能系統運行錯誤。人工智能決策嚴重依賴訓練數據特徵分佈性和完備性,人工標記數據覆蓋不全、訓練數據與測試數據同質化等原因常常導致人工智能算法泛化能力差,智能系統在動態環境實際使用中決策可能出現錯誤。特斯拉汽車自動駕駛系統曾因無法識別藍天背景下的白色貨車,致使發生致命交通事故。

模型竊取攻擊可對算法模型的數據進行逆向還原。人工智能算法模型的訓練過程依託訓練數據,並且在運行過程中會進一步採集數據進行模型優化,相關數據可能涉及到隱私或敏感信息,所以算法模型的機密性非常重要。但是,算法模型在部署應用中需要將公共訪問接口發佈給用戶使用,攻擊者可通過公共訪問接口對算法模型進行黑盒訪問,依據輸入信息和輸出信息映射關係,在沒有算法模型任何先驗知識(訓練數據、模型參數等)情況下,構造出與目標模型相似度非常高的模型,實現對算法模型的竊取,進而還原出模型訓練和運行過程中的數據以及相關隱私信息。新加坡國立大學 Reza Shokri 等針對機器學習模型的隱私泄露問題,提出了一種成員推理攻擊,在對模型參數和結構知之甚少的情況下,可以推斷某一樣本是否在模型的訓練數據集中。

開源學習框架存在安全風險,可導致人工智能系統數據泄露。人工智能開源學習框架實現了基礎算法的模塊化封裝,可以讓應用開發人員無需關注底層實現細節,大大提高了人工智能應用的開發效率。谷歌、微軟、亞馬遜、臉書等企業都發布了自己的人工智能學習框架,在全球得到廣泛應用。但是,人工智能開源學習框架集成了大量的第三方軟件包和依賴庫資源,相關組件缺乏嚴格的測試管理和安全認證,存在未知安全漏洞。近年來,360、騰訊等企業安全團隊曾多次發現TensorFlow、Caffe、Torch 等深度學習框架及其依賴庫的安全漏洞,攻擊者可利用相關漏洞篡改或竊取人工智能系統數據。

(二) 人工智能應用導致的數據安全風險

人工智能應用可導致個人數據過度採集,加劇隱私泄露風險。隨着各類智能設備(如智能手環、智能音箱)和智能系統(如生物特徵識別系統、智能醫療系統)的應用普及,人工智能設備和系統對個人信息採集更加直接與全面。相較於互聯網對用戶上網習慣、消費記錄等信息採集,人工智能應用可採集用戶人臉、指紋、聲紋、虹膜、心跳、基因等具有強個人屬性的生物特徵信息。這些信息具有唯一性和不變性,一旦被泄露或者濫用會對公民權益將造成嚴重影響。2018 年 8 月,騰訊安全團隊發現亞馬遜智能音箱後門,可實現遠程竊聽並錄音。2019 年 2 月,我國人臉識別公司深網視界曝出數據泄露事件,超過 250 萬人數據、680 萬條記錄被泄露,其中包括身份證信息、人臉識別圖像及 GPS 位置記錄等。鑑於對個人隱私獲取的擔憂,智能安防的應用在歐美國家存在較大爭議,2019 年 7 月,繼舊金山之後,薩默維爾市成爲美國第二個禁止人臉識別的城市。

人工智能放大數據偏見歧視影響,威脅社會公平正義。當前,人工智能技術已應用於智慧政務、智慧金融等領域,成爲社會治理的重要輔助手段。但是,人工智能訓練數據在分佈性上往往存在偏差,隱藏特定的社會價值傾向,甚至是社會偏見。例如,海量互聯網數據更多體現我國經濟發達地區、青壯年網民特徵,而對邊遠地區以及老幼貧弱人羣的特徵無法有效覆蓋。人工智能系統如果受到訓練數據潛在的社會偏見或歧視影響,其決策結果勢必威脅人類社會的公平正義。在社會招聘領域,美國 Kronos 公司的人工智能僱傭輔助系統讓少數族裔、女性或者有心理疾病史的人更難找到工作;在金融徵信領域,科技金融公司 Zest 的人工智能信用評估平臺 ZAML,採集分析用戶網絡行爲來判定用戶的信用值,曾經錯誤判定不能熟練使用英語的移民羣體存在信用問題。

人工智能技術的數據深度挖掘分析加劇數據資源濫用,加大社會治理和國家安全挑戰。通過獲取用戶的地理位置、消費偏好、行爲模式等碎片化數據,再利用人工智能技術進行深度挖掘分析,能夠預測用戶的喜好和習慣,進而對用戶進行分類,可實現更加精準的信息推送。基於數據分析的智能推薦可帶來用戶便利、企業盈利和社會福利,但是也加劇了數據濫用問題。一是在社會消費領域,可帶來差異化定價。“大數據殺熟”實現對部分消費者的過高定價,甚至進行惡意欺詐或誤導性宣傳,導致消費者的知情權、公平交易權等權利受損。2018年,我國滴滴、攜程等均爆出類似事件,根據用戶特徵實現對不同客戶的區別定價,社會負面影響巨大。二是在信息傳播領域,可引發“信息繭房”效應。人們更多接收滿足自己偏好的信息和內容,限於對世界的片面認知,導致社會不同羣體的認知鴻溝拉大,個人意志的自由選擇受到影響,甚至威脅到社會穩定和國家安全。2018 年曝光的“Facebook 數據泄露”事件中,美國劍橋分析公司利用廣告定向、行爲分析等智能算法,推送虛假政治廣告,進而形成對選民意識形態和政治觀點的干預誘導,影響美國大選、英國脫歐等政治事件走向。基於人工智能技術的數據分析與濫用,給數字社會治理和國家安全等帶來嚴峻安全挑戰。

人工智能技術可提升網絡攻擊的智能化水平,進而實施數據智能竊取。一是可用來自動鎖定目標,進行數據勒索攻擊。人工智能技術可通過對特徵庫學習自動查找系統漏洞和識別關鍵目標,提高攻擊效率。英國網絡安全公司 Darktrace 分析顯示,集成人工智能技術的勒索軟件可自動瞄準更具吸引力的目標,劫持工業設備、醫療儀器等相關運行數據勒索贖金,受害者爲使系統和設備重新上線運行而被迫支付贖金。二是自動生成大量虛假威脅情報,對分析系統實施攻擊。人工智能通過使用機器學習、數據挖掘和自然語言處理等技術處理安全大數據,能夠輔助自動化地生產威脅情報,攻擊者也可利用相關技術生成大量錯誤情報以混淆判斷。美國 McAfee 公司指出,“提高噪聲基底(noise floor)”技術可對特定環境進行情報轟炸,給威脅情報分析系統的判斷模型製造大量的主動錯誤信息,造成威脅情報過載,迫使系統重新校準以過濾掉假警報,通過這一過程,攻擊者可瞭解防禦邏輯並伺機發起真正的攻擊,進而竊取系統數據。三是自動識別圖像驗證碼,竊取系統數據。圖像驗證碼是一種防止機器人賬戶濫用網站或服務的常用驗證措施,通過解決視覺難題來驗證人類用戶,以有效區分攔截惡意程序,保護系統數據安全。但是,人工智能技術已實現對驗證碼的有效破解。美國 Vicarious 公司開發的基於概率生成模型的驗證碼識別算法,在標準的 reCAPTCHA 測試中,可成功解開三分之二的驗證問題4。2017 年,我國浙江省破獲了全國第一例人工智能犯罪,案件中黑客利用人工智能識別圖片驗證碼的正確率高達 95%以上,在此平臺被打掉前的 3 個月已經提供驗證碼識別服務 259 億次。

基於人工智能技術的數據深度僞造將威脅網絡安全、社會安全和國家安全。人工智能可利用收集的訓練數據進行特徵學習,生成逼真的虛假信息內容。特別是近年來基於生成對抗網絡(GAN)的“DeepFakes”(深度僞造)技術應用,使得“換臉”虛假視頻的製作門檻不斷降低,大量深度僞造數據內容開始涌現。我國也出現了徐錦江版“海王”,楊冪版“黃蓉”等逼真虛假視頻。目前,深度僞造 2.0 概念已被提出,相比於之前的換臉,深度僞造 2.0 可模仿人的行爲舉止、聲音和習慣動作,更難以區分真假。2019 年 6 月,Facebook 一段扎克伯格的假視頻傳播迅速,視頻裏的人從長相、聲音、穿衣、手勢以及說話時的動作神情都與真人無異。深度僞造數據內容的大量生成和傳播,將給網絡安全、社會安全和國家安全帶來嚴重風險。一是降低生物特徵識別技術可信度,提升網絡攻擊能力。基於圖像特徵的人臉識別技術和基於聲紋的語音識別技術均屬於典型的生物特徵識別技術,在非接觸式身份認證、大流量或自動化安全檢測等領域已開展規模化應用。但目前識別僞造音視頻存在技術難度,降低了生物特徵識別技術的可信度,給網絡攻擊提供了新手段。二是造成人際間的信任危機,威脅倫理和社會安全。隨着換臉換聲技術的不斷進化,僞造圖片和音視頻的成本會不斷降低,各種惡意僞造的圖片和音視頻信息將大量涌現,會侵犯公民肖像權等個人權益,甚至用於敲詐勒索、僞造罪證等不法活動,從而造成社會信任危機,對倫理道德和社會穩定構成嚴重威脅。三是通過製作虛假新聞影響政治輿論,進而威脅國家安全。國內外惡意勢力可利用基於人工智能的換臉換聲技術僞造政治領袖和公衆人物的新聞視頻,普通民衆根本無法辨別真假,此類虛假視頻內容的大量擴散與傳播,可對社會輿論生態造成惡劣影響,引發民衆騷亂甚至國內動亂,威脅國家安全。2019 年 6 月,由於擔心深度僞造對 2020 年美國大選的災難性影響,美國衆議院已經開始考慮修訂現行法案,在立法層面打擊相關行爲。

(三) 人工智能應用加劇的數據治理挑戰

人工智能提升數據資源價值,數據權屬問題更爲突出。一是個人層面,數據權屬體現爲公民的數據權利,個人隱私保護面臨挑戰。用戶個人隱私信息含金量高,是人工智能技術與產業發展的重要驅動。相關機構在利用用戶數據追求自身利益時往往忽視用戶個人隱私權益。近年來,個人隱私泄露重大事件連續發生,順豐快遞、華住酒店、萬豪酒店等均出現數億用戶信息泄露事件。另外,互聯網用戶在使用社交平臺、網絡直播、在線遊戲等應用的過程中,會產生海量社交關係數據和用戶行爲數據等,這類數據在權利歸屬上存在爭議,但已成爲人工智能企業進行算法設計和產品研發的重要支撐。二是行業層面,數據權屬體現爲企業的數據產權,數據壟斷損害行業整體發展。人工智能技術使數據經濟價值越發凸顯,數據已成爲企業的核心資產,相關企業積極儲備數據資源,並阻止競爭對手獲得數據,力圖壟斷數據資源來最大化企業利益。我國曾爆發華爲與騰訊、順豐與菜鳥之間的數據糾紛事件。數據產權之爭將加劇數據壟斷。一方面,科技巨頭依託網絡覆蓋和用戶規模,加強數據匯聚;另一方面,人工智能中小企業獲取數據的渠道受限,數據資源匱乏。企業在數據產權沒有被廣泛認可,以及數據流動環節存在安全風險的前提下,無論是從維護自身利益角度還是從遵守法律法規角度,都不願將自身數據進行共享,這將導致初創企業和研究機構在算法設計和優化過程中無數據可用,損害我國人工智能行業整體發展。

人工智能凸顯數據的戰略地位,數據違規跨境衝擊國家安全。當前,世界主要國家都制定了人工智能發展戰略,對數據的依賴快速上升,數據作爲國家基礎性戰略資源的地位更加突出。爲快速積累數據,科技企業通過向消費者提供特定領域免費應用、使用政府公開數據以及進行產業上下游數據協同等方式獲取儘可能多數據。以臉書、谷歌爲代表的美國科技巨頭,依託其龐大用戶規模和強大數據抓取工具,在全球範圍內進行數據收集,強化數據資源優勢,推進自身人工智能發展,加劇數據違規跨境流動風險。與此同時,2018 年 3 月,美國發布《澄清境外數據的合法使用法案》(CLOUD 法案),爲美國執法機構訪問在美國境內運營的企業存儲在海外的用戶數據提供明確授權,促使數據管轄權和跨境流動爭議進一步加大,威脅我國網絡主權和國家安全。

三、 人工智能數據安全應用

(一) 人工智能與數據安全治理

人工智能和數據安全治理互利互補,人工智能技術賦予數據安全治理智慧,數據安全治理爲人工智能技術發展提供前驅動力。人工智能技術的發展爲數據安全治理提供底層通用技術支撐,取代數據安全治理中大量重複性、長期性、粗略性人類勞動,使數據安全治理向自動化、高效化、精準化、智能化演進。與此同時,數據安全治理工作的開展能提升數據質量,促進數據安全流通和合規使用,爲人工智能提供高質量數據集,從而爲人工智能技術發展提供前驅動力。具體表現爲以下五個方面。

一是人工智能技術可更加準確地理解數據,促進數據安全治理精準化。數據量的豐富爲人工智能提供特徵廣泛的訓練數據集,使人工智能模型更加精確。算力的提升使人工智能具備實時數據處理能力,支持在更大範圍內及時監測和處理數據,並持續改進樣本庫,減少樣本過少或漏報帶來的運算誤差。以神經網絡爲代表的的深度學習技術的發展可以大力提升數據分類分級精準度和數據內容識別準確率。例如,2012 年神經網絡算法只有 5 層,而 2018 年可以做到 1200 多層,在人臉識別領域最高可達一億分之一的誤識率。

二是人工智能技術可取代人類重複性勞動,促進數據安全治理自動化。2018 年李開復在《人工智能》一書中指出,人工智能將在 15年內具備取代 40-50%崗位的技術能力,主要集中在重複性勞動、有固定臺本和對白內容的各種互動、不需與人進行大量面對面交流的工作領域。在數據安全治理領域中,傳統的數據特徵標註需要大量人力反覆篩選和識別,人工智能可以取代人類自動對數據按照內容進行識別和添加標籤。在網絡安全防護方面,隨着網絡攻擊手段的智能化升級,傳統的依賴手動過程以及靜態規則和簽名的數據傳輸網絡安全保護方法正在失效,人工智能技術可以通過自我學習自動更新安全規則,及時檢測出新型網絡威脅。

三是人工智能技術直擊數據安全治理痛點,促進數據安全治理智能化。數據資產不清晰、數據和知識難以關聯、數據安全管理策略更新不及時是數據安全治理中常見問題。與傳統數據安全治理相比,人工智能技術可通過精準分級分類自動梳理數據資產,基於統一的管理標準形成元數據,通過智能搜索、關聯查詢手段,形成數據關聯關係圖譜,對數據安全風險進行智能評估、量化和預測,輔助形成更合理的安全管理策略。例如,IBM 的大數據安全智能系統實時運用人工智能技術實現了數據的智能高速查詢、實時異常檢測、自動確定事件根源並開展覈查。騰訊的智能大數據治理系統基於基礎知識庫實現針對不同類型數據的自動感知、智能推薦轉換等智能處理功能,人工智能技術使數據安全治理智能化。

四是人工智能技術可提升系統效率,促進數據安全治理高效化。人工智能可以充分利用自然語言處理、圖像識別、語音識別、視頻處理等技術彌補傳統數據處理耗時長、效率低等弱項,提升系統效率。例如人工智能技術可以對非結構化數據進行高效分析處理,將過去需要幾周乃至幾個月才能完成的工作縮短到幾個小時之內完成,使數據安全治理高效化。華爲將機器學習技術用於大數據分析平臺,其在中國移動等多個項目的實踐表明,數據治理效率提升超過 40%,數據準備週期從月降爲小時級,大數據分析應用上線週期從月降到周,同時高效數據治理也提升了數據質量,高質量數據佔比提升 40%以上。

五是數據安全治理促進高質量數據集生成,驅動人工智能技術發展。高質量數據集是提升人工智能算法準確性、模型合理性和產品先進性的至關重要的因素,只有當人工智能系統能夠獲取更爲準確、及時、一致的高質量數據,才能提供更高效、更可靠的智能化服務。近年來,隨着政府、企業對數據質量管理的重視,數據質量工具市場穩步增長。據 Gartner 發佈的 2018 年數據庫魔力象限報告顯示,2017年數據質量軟件工具市場達到 16.1 億美元,比 2016 年增長 11.6% 。數據安全治理是提升數據質量的必要途徑,是促進人工智能全面發展和應用的基礎保障。

(二) 人工智能在數據安全治理中的應用

2018 年 5 月,Gartner 發佈數據安全治理(Data SecurityGovernance,簡稱 DSG)框架,提出了從管理層到技術層、從機制體制到技術工具、全方位覆蓋整個組織架構的完整數據安全治理鏈條。Gartner 指出,直接從數據生命週期環節入手並不合理,需要先確定組織架構,建立管理問責制和決策權,對不同等級的風險制定不同的策略,再利用技術工具對數據全生命週期進行安全風險控制管理,最後對安全風險進行評估並回到第一步重新糾編,形成數據安全治理閉環。2018 年 5 月,中國網信聯盟指導下的數據安全治理委員會發布《數據安全治理白皮書》,提出一個通用的數據安全治理框架,將框架分爲數據安全治理機制、數據全生命週期管理和數據安全技術部署三個部分。國內外主流數據安全治理框架的思路是相通的,均是以策略機制爲入口,以數據全生命週期管理爲基礎,以技術工具爲支撐的多方位治理體系。

本白皮書借鑑國內外主流數據安全治理框架並結合人工智能數據安全應用經驗,將人工智能在數據安全治理領域的應用分爲數據安全策略制定、數據資產安全管理、數據活動安全保護、數據安全事件管理四個階段。人工智能技術可應用於數據安全治理的各個階段,但主要是促進細分領域應用優化升級,距離體系化的智能數據安全治理還有很大差距。如圖 3 所示,人工智能數據安全治理細分領域包括數據安全策略、數據分級分類、數據質量管理、數據本體安全保護、數據活動網絡安全保護、數據流轉行爲分析、數據安全風險評估、不良信息治理、互聯網反欺詐、打擊數據黑產等。

clipboard.png

1、數據安全策略制定

傳統的策略制定過程中用來輔助決策的日誌數據和警報數量巨大,決策者難以快速處理,因此傳統方式主要依賴人的直覺和經驗。人工智能技術具備海量數據採集和分析能力,可根據訓練模型進行自我學習並做出相應的判斷,使管理更精細、決策更智能,因此智能決策系統應用非常廣泛。基於人工智能的決策系統能大大提高數據安全治理策略的時效性和合理性,在數據安全風險管理策略、數據合規性要求、分級保護策略的制定等方面輔助管理者快速、科學、合理地制定策略,爲數據安全治理提供智能化的解決方案。例如,2017 年 12月,百分點集團發佈智能政府決策系統 Deep Governor,該系統匯聚行業專家知識,結合 6 大類 50 餘種社會經濟發展綜合決策模型,推動政府科學決策水平和決策能力現代化,助推“數據治國”。

2、數據資產安全管理

一是在數據分級分類方面,可以通過應用機器學習、模式聚類、自然語言處理、語義分析、圖像識別等技術,提取數據文件核心信息,對數據按照內容進行梳理,生成標註樣本,經過反覆的樣本訓練與模型修正,可以實現對數據自動、精準的分級分類。例如,我國網絡安全初創企業思睿嘉得利用無監督機器學習引擎分析大量未經標註的原始文檔集,自動按照內容進行主題梳理,並通過人工干預靈活調整語義相似度,獲得滿意的聚類效果,從而實現對數據的精準分級分類。浙江省旅遊信息中心聯合廈門杜若科技公司開展了浙江省旅遊度假區信息的數據治理試點,將旅遊大數據納入人工智能系統,對結構化數據進行開放式訓練,對數據進行分級分類並實現基於自然語言的數據管理。

二是數據質量管理方面,在開展數據質量覈查過程中,人工智能技術與傳統根據預置規則進行覈查的方式相結合,可以僅針對少量核心覈查規則,利用機器學習算法進行深度分析,定位數據質量原因、預測數據質量問題,形成知識庫,進一步增強數據質量管理能力。例如,谷歌將人工智能引入醫療行業,通過重塑醫療數據層級爲醫療巨頭提供更高質量的結構化數據,創建新數據管道,助力醫療健康數據基礎設施建設。億信華辰的數據質量管理平臺 EsDataClean,Informatica 的數據治理工具 Data Director 以及 IBM 的通用數據治理產品 Stewardship Center 等均在業界處於領先地位,通過人工智能技術的使用極大減少了人力投入和過程干預,提升了數據質量管理效率,也爲後續的模型訓練提供了更多高質量數據。

3、數據活動安全保護

一是數據本體安全保護方面包括數據脫敏、數據防泄漏、數據加密等。數據脫敏方面,在數據分級分類的基礎上,結合數據合規性規則智能生成脫敏特徵庫,並與敏感數據識別智能關聯,實現智能發現和自動脫敏,有效降低敏感數據泄露風險。亞馬遜的智能識圖工具Rekognition 可以輔助醫務人員進行醫學圖像脫敏。數據防泄漏方面,加州伯克利大學團隊運用人工智能技術開發了一款手機 APP,能夠自動掃描手機相冊內的裸露照片,改爲加設密碼存在該 APP 中,並進一步從相冊與雲空間刪除,徹底防止私密照片外泄。數據加密方面,谷歌大腦成功開發出兩個獨立的人工智能加密算法,不但能夠防範第三方破解,而且還能夠自我學習,破解其他人工智能加密算法。

二是數據活動網絡安全保護方面,基於人工智能的網絡安全防護手段相比傳統基於靜態規則的方法具有持續進化能力。新威脅的產生不斷爲訓練集加入新的數據,通過人工智能算法和模型調優,可以快速查閱每個可疑文件數以百萬計的特徵,智能識別最輕微的代碼衝突;對內外部網絡流量中的元數據進行關聯分析,實時檢測異常流量;利用龐大的關聯處理能力並行監測海量數據點,實時生成風險預測,發現並阻止設備或網絡攻擊。

惡意代碼分析方面,中科院軟件所提出基於文本分類技術的惡意代碼檢測工具“飛鼠”系統,能夠對大量惡意代碼樣本進行及時、高效和準確檢測,同時也具有一定的泛化能力,能夠檢測一定的未知樣本。大連市公安局提出了基於人工智能技術的惡意代碼變種檢測技術,將惡意代碼映射爲圖像,提取圖像特徵,建立人工智能模型,利用惡意代碼家族圖像樣本集訓練檢測模型,能夠快速識別惡意代碼變種及其家族,有效提高了檢測效率和準確率。

邊界安全防護方面,2018 年 11 月,華爲發佈業界首款智能防火牆,內置基於人工智能的高級威脅檢測引擎,支持加密流量免解密威脅檢測,通過聯動雲端爲企業提供智能化的網絡邊界防護,威脅檢出率達到 99%以上。2019 年 4 月,新華三集團發佈人工智能防火牆業界新品,採用高性能的雙 GPU 加雙 CPU 的人工智能硬件架構,提供每秒萬億次的運算能力,結合數十種人工智能算法的軟件開放平臺,實現全面感知、深度學習和智能防護,改變了傳統安全運維難、發現慢和響應差的狀況。

入侵威脅監測方面,騰訊安全團隊基於真實運行行爲、系統層監控和人工智能芯片檢測,利用神經網絡算法和算法模型雲端訓練自主研發了騰訊 TRP-AI 反病毒引擎。該引擎具有抗免殺、高性能、實時防護、可檢測 0Day 病毒等優勢,可自動化訓練,大大縮小了查殺週期和運營成本,可使病毒檢測覆蓋率達到 90%,檢測準確率高達 99%。2017 年,IBM 發佈用於網絡安全領域的 “沃森”人工智能系統,能夠提供雲和端威脅的感知應對能力。

三是數據流轉行爲分析,通過自然語言處理、機器學習、聚類算法對採集的基礎數據進行行爲建模,多維度勾勒出用戶行爲特徵,形成用戶畫像知識圖譜,實現智能化用戶行爲分析。同樣,通過人工智能技術也可以對數據傳輸行爲進行智能統計和關聯分析,繪製數據流轉動態圖譜,有利於跟蹤敏感數據走向,分析數據安全態勢。例如,榮之聯推出的智慧商業情報大數據平臺依託人工智能技術建立用戶行爲數據計算模型和情感交換計算模型,通過用戶行爲數據流轉分析來預測用戶行爲可能性。

四是數據安全風險評估,經過訓練後的神經網絡算法能夠解決具有相似特點的風險評估問題,通過對風險因素的學習,可以自動實現從輸入到輸出的複雜映射關係,對優劣性受多種因素綜合影響的事物作出合理的綜合評價,從而減少傳統專家評估過程中主觀分數的片面性影響。例如思維世紀推出基於人工智能技術的數據安全評估解決方案,對數據全生命週期中各個環節的數據脫敏狀態、應用通道、使用行爲等因素進行智能關聯分析,得出數據安全風險評估結果,並根據評估結果進一步優化數據安全管理策略。

4、數據安全事件管理

人工智能技術由於其普適性、自學習、高效性等特點能夠在數據處理環節應對更加複雜的數據結構和數據環境,得出更加嚴謹和穩固的模型和推演結果,完成更自主的信息捕捉、更智慧的分析判斷和更智能的服務。在數據安全事件管理中,利用人工智能技術對網絡中的數據進行自動爬取和深度挖掘分析,能夠提高網絡中敏感數據、有害信息的自動發現和識別效率,實現數據安全事件智能監測和預警。結合用戶行爲畫像和數據安全態勢圖譜,人工智能技術能夠對數據安全事件的源頭進行追溯,從而輔助管理部門採取相應措施實現快速處置,顯著提升數據安全事件的管理水平。

不良信息治理方面,百度推出的“人工智能+廣告打假”僅 2018 年上半年處理了 145.4 億條有害信息,其中佔比居前兩位的是淫穢色情類和賭博類,分別爲 51.04%和 16.63%。2019 年阿里巴巴推出“人工智能謠言粉碎機”,通過分析用戶畫像、與知識圖譜裏的權威知識庫作匹配驗證等步驟實現對新聞內容的智能可信度識別,在特定場景中的準確率已達到 81%。中國信息通信研究院基於所積累的標準樣本庫,開展對淫穢色情、涉恐涉暴等違法信息識別的建模訓練,初步實現基於人工智能技術的不良信息檢測能力,識別準確率在 97%以上,比傳統方式提升了 17%,識別速度是傳統方式的 110 倍。2018 年 2 月,英國內政部宣佈了一項新的智能內容識別工具,利用人工智能技術在線自動檢測互聯網平臺上的恐怖分子宣傳內容,精確度達到 99.995%。

互聯網反欺詐方面,我國人工智能初創企業第四範式開發的“人工智能+金融”服務平臺,構建了億級別的高維機器學習模型,能夠高效、精準識別欺詐交易,智能反洗錢。該平臺在某銀行線上 B2C交易欺詐防控準確率達 83%,較傳統專家規則方式提升 316% ,比專家規則多識別欺詐交易 58.8%,降低 30%的交易案宗審覈成本。阿里自研的“錢盾”反詐預警系統,利用人工智能技術助力警方預警攔截詐騙事件,9 個月內勸阻 8.7 萬人,止損 6.9 億元。中國信息通信研究院使用人工智能技術多維度分析不同的可疑特徵,有效實現了互聯網詐騙行爲的識別和預警,其中涉詐網站識別準確率達到 95%,涉詐賬號識別準確率達到 90%,仿冒 APP 識別準確率達到 92%。

打擊數據黑產方面,騰訊守護者計劃基於長期積累的人工智能技術能力,引入多維度的動態驗證機制對抗數據黑產。運用人工智能技術協助警方刑事打掉“快啊答題”、“光速打碼”兩個團伙,這兩個團伙是國內最大的利用人工智能破解識別驗證碼的打碼黑產團伙。

總之,人工智能技術已在數據安全治理的細分領域開展諸多應用,但是人工智能技術並不是萬能的,構建可管、可控、可信的數據安全治理技術支撐體系仍面臨諸多挑戰。歐洲市場研究和諮詢服務公司kbv research 2017 年發佈市場研究預測報告指出,數據安全市場將每年以 18%的複合增長率發展,估計 2023 年將達到 209 億美元;若以在 2023 年達到全球 20%的 GDP 來看,中國市場規模將達到大約 400億元人民幣,未來人工智能在數據安全治理領域仍存在很大應用潛力。然而,同樣要理性認識到,人工智能作爲一項新興的底層通用技術,並不是爲某一項應用特製,因此並不能解決數據安全治理的所有難題。例如在數據運營活動的網絡安全防護技術手段方面,人工智能技術並不適用於某些 APT 攻擊的場景,有些 APT 攻擊針對性強,攻擊行爲的成功往往是孤例,不足以支持海量攻擊樣本庫生成,傳統方式在此類場景仍然十分有效。數據安全治理是一個全球性的話題,除人工智能技術以外,網絡環境安全防護能力的升級、數據安全治理政策和規則的制定等都影響數據安全治理的效果和能力。

四、 國內外人工智能數據安全治理動態

當前,世界主要國家均在人工智能發展戰略、倫理規範方面提出人工智能數據安全相關規劃和基本原則,但相關法律法規還不夠細化完善,安全技術研究方興未艾,安全標準也處於制定初步階段,人工智能數據安全治理工作任重道遠。

(一) 國內外人工智能數據安全戰略規劃情況

世界主要國家把發展人工智能作爲提升國家競爭力、維護國家安全的重大戰略,加緊出臺規劃和政策,力圖在新一輪國際科技競爭中掌握主導權。在數據安全方面,各國結合本國實際國情和人工智能發展情況,在相關發展戰略中形成有針對性的規劃建議。

1、美國:推動訓練數據集建設,加強數據安全風險應對

一是推進高質量訓練數據集的建設與開放。2016 年 10 月,美國連續發佈《爲人工智能的未來做好準備》和《國家人工智能研究和發展戰略規劃》兩份報告,提出實施“人工智能公開數據”計劃,實現大量政府數據集的公開,增強高質量和完全可追溯的聯邦數據、模型和計算資源的可訪問性,並開發用於人工智能訓練、測試的公共數據集。2019 年 2 月,美國總統特朗普簽署《人工智能倡議》發展規劃,進一步指示加強聯邦政府、機構的數據、算法和計算機處理資源對人工智能研發人員和企業的開放。二是加強對數據安全問題的應對。2019 年 6 月,美國發布新版《國家人工智能研發與發展戰略計劃》,要求所有機構負責人審查各自聯邦數據和模型,注重保護數據安全、隱私和機密性。

2、歐盟:細化人工智能數據規則,關注個人數據與權益保護

2018 年 3 月,歐洲政治戰略中心發佈《人工智能時代:確立以人爲本的歐洲戰略》,戰略中認識到歐洲人工智能發展面臨數據短缺和數據偏見等問題,提出擴大人工智能系統所需數據源,設計利於歐洲數據收集、使用和共享的監管方案,確保《通用數據保護條例》(GDPR)個人數據保護要求實施的建議。2018 年 4 月,歐盟委員會發布《歐盟人工智能》發展戰略,建議公共政策應鼓勵更廣泛地分享私人數據,並遵守關於個人數據保護的法律政策。爲最大程度地促進數據流轉和分享,歐盟委員會將修訂公共部門信息開放指令,出臺私營部門數據分享指南,修訂科研信息獲取和保存建議,以及出臺醫療健康數字化轉型政策。2018 年 12 月,爲落實《歐盟人工智能戰略》,歐盟發佈《人工智能協調計劃》,將提供更多數據、確保信任等作爲關鍵領域發力,並提出必須遵從《通用數據保護條例》的關鍵原則。

3、英國:強化數據安全監管,規範數據資源開發利用

2016 年 11 月,英國政府科學辦公室發佈《人工智能:未來決策制定的機遇與影響》。報告指出,爲了促進負責任的創新和獲得公衆的信任,同時爲投資者和發明者創造一個好的環境以及爲科技發展爭取合理的數據使用,英國政府必須採用負責任的態度和積極應對的監管方式。2018 年 4 月,英國政府發佈《產業戰略:人工智能領域行動》,提出改進現有的數據基礎設施:發佈更高質量的公共數據,設立地理空間委員會以改進對地理空間數據的訪問,爲數據共享和使用提供法律保障等。在數據安全方面,提出開發公平、安全的數據共享框架:與公私部門的主要數據持有者及數據科學社區合作,確定數據共享障礙;與業界合作探索安全、公平的數據傳輸框架與機制。

4、日本:構建數據驅動與知識驅動融合型人工智能,鼓勵協同開展數據安全與隱私保護技術研究

2018 年 4 月,日本發佈第五版《下一代人工智能和機器人核心技術開發計劃》,進行下一代人工智能研發佈局。計劃提出,探索構建數據驅動與知識驅動融合型人工智能,將知識與數據相融合,輔助人類進行推理與決策;開展下一代人工智能框架與核心模塊研究,研究兼顧數據安全與隱私保護的數據獲取技術,探討複雜問題和複雜場景下人工智能多模塊融合效率與性能提升的方法。同時,加大從美國引進人工智能人才的力度,促進雙方青年共同開展研究,在數據安全、隱私保護等方向培養下一代研究人員。

5、印度:充分挖掘本國人工智能發展優勢,關注數據安全和隱私保護

2018 年 6 月,印度發佈《人工智能國家戰略》報告,指出印度人工智能發展的優勢與問題,特別關注軍事安全與道德隱私領域,並就印度人工智能國家戰略的構建提出了框架方案。報告認爲,印度人工智能發展的目標在於成爲發展中國家的人工智能中心,基於成熟的軟件行業,印度多元的文化環境將爲推進人工智能發展帶來意想不到的貢獻。關於數據偏差,報告指出數據偏差導致的算法決策缺乏中立性,建議“識別內置偏差,評估其影響,並找到減少數據偏差的方法”。關於數據保護,報告建議建立數據保護框架和部門監管框架,並促進採用國際標準。關於隱私保護,報告呼籲“採取適當的措施來緩解隱私泄露風險,並強調使用人工智能情況下采取更高標準的隱私保護的重要性”。

6、我國:高度重視數據集建設,推進人工智能安全應用,防範人工智能數據風險

一是高度重視基礎數據集建設,推進數據開放。2016 年,發改委發佈《互聯網+人工智能三年行動實施方案》提出加快建設文獻、語音、圖像、視頻、地圖等多種類數據的海量訓練資源庫和基礎資源服務公共平臺。2017 年 7 月,國務院印發《新一代人工智能發展規劃》,指出“重點建設面向人工智能的公共數據資源庫、標準測試數據集、雲服務平臺等”以及“完善落實數據開放與保護相關政策,開展公共數據開放利用改革試點,支持公衆和企業充分挖掘公共數據的商業價值,促進人工智能應用創新”。2017 年 12 月,工信部發布《促進新一代人工智能產業發展三年行動計劃(2018-2020 年)》提出“到2020 年人工智能產業支撐體系基本建立,具備一定規模的高質量標註數據資源庫、標準測試數據集建成並開放”以及“加強行業對接,推動行業合理開放數據”。二是推進人工智能安全應用。《新一代人工智能發展規劃》提出,促進人工智能在公共安全領域的深度應用,推動構建公共安全智能化監測預警與控制體系。《行動計劃》提出,推動人工智能先進技術在網絡安全領域的深度應用,加快漏洞庫、風險庫、案例集等共享資源建設。三是加強人工智能數據風險防範。《新一代人工智能發展規劃》在促進人工智能發展的同時,關注人工智能數據安全風險,提出“強化數據安全與隱私保護,爲人工智能研發和廣泛應用提供海量數據支撐”以及“促進人工智能行業和企業自律,切實加強管理,加大對數據濫用、侵犯個人隱私、違背道德倫理等行爲的懲戒力度”。

綜合看,我國人工智能發展戰略對人工智能數據安全進行了整體規劃。但是與國外相比,我國在戰略落地實施中存在如下問題:一是在數據集建設過程中,政府和行業數據開放力度不足,缺乏有影響力的公共數據集。二是在數據安全治理實踐中,側重人工智能在安全領域應用,人工智能數據安全風險防範的技術研究和手段建設相對滯後。

(二) 國內外人工智能數據安全倫理規範情況

國外先進國家較早重視人工智能數據安全倫理原則。在企業層面。谷歌提出的人工智能“七原則”包含隱私原則:給予通知和同意的機會,鼓勵具有隱私保護的架構,並提供適當的透明度和對數據使用的控制。微軟提出的人工智能“六原則”包含“隱私與保障”原則:在設計人工智能時,必須要考慮智能隱私保護,必須要有先進的、值得信賴的保護措施,確保個人和羣體的隱私信息安全。在行業層面,2017年 1 月,阿西洛馬人工智能 23 原則形成併發布,霍金、馬斯克等近四千名各界專家簽署支持。關於隱私保護方面,相關原則要求人工智能系統分析使用數據時,人類應當擁有對其自身產生的數據的訪問、管理以及控制的權利;並且人工智能基於個人數據的應用不能削減人們真實的或者感知上的自由。在國家和地區聯盟層面。2018 年 4 月,英國議會發布《英國人工智能發展計劃、能力與志向》,提出了“人工智能不應用於削弱個人、家庭乃至社區的數據權利或隱私”等 5 項人工智能基本道德準則。2019 年 4 月,歐盟委員會發布了《可信賴人工智能倫理指南》,指出人工智能系統必須確保隱私和數據保護,這既包括用戶提供的信息,也包括用戶在和系統交互過程中生成的信息,同時確保收集的數據不會用於非法地或不公平地歧視用戶的行爲。

我國近年來加強人工智能數據安全倫理研究與制定。在企業層面,2019 年 7 月,騰訊、曠視科技等企業相繼發佈人工智能倫理準則。騰訊人工智能倫理報告《智能時代的技術倫理觀——重塑數字社會的信任》指出,人工智能技術倫理觀包含技術信任、個體幸福和社會可持續三個層面。其中,個體幸福要求確保人人都有追求數字福祉、幸福工作的權利,在人機共生的智能社會實現個體更自由、智慧、幸福的發展。曠視科技《人工智能應用準則》明確提出,人工智能解決方案的開發及使用過程中,需嚴格保護用戶的個人隱私、保障數據安全。在行業層面,2018 年 9 月,《人工智能安全發展上海倡議》在世界人工智能大會期間發佈。倡議提出人工智能發展需要保障用戶的數據安全,不得以犧牲用戶隱私爲代價,需要加強數據保護立法,豐富人工智能的技術路線,不斷強化人工智能應用中的用戶隱私保護。2019年 5 月,《人工智能北京共識》發佈,包含“實現人工智能系統的數據安全”、“避免數據與平臺壟斷”、“建立合理的數據與服務撤銷機制”等內容。2019 年 6 月,中國人工智能產業發展聯盟發佈《人工智能行業自律公約(徵求意見稿)》,“保護隱私”原則要求,堅持以合法、正當、必要的原則收集和使用個人信息,加強對未成年人等特殊數據主體的隱私保護,強化技術手段,確保數據安全。在國家層面,2019 年 6 月,國家新一代人工智能治理專業委員會發布《新一代人工智能治理原則——發展負責任的人工智能》,將“尊重隱私”作爲八項原則之一,要求人工智能發展應尊重和保護個人隱私,充分保障個人的知情權和選擇權;在個人信息的收集、存儲、處理、使用等各環節應設置邊界,建立規範;完善個人數據授權撤銷機制,反對任何竊取、篡改、泄露和其他非法收集利用個人信息的行爲。

可以看到,伴隨人工智能技術和應用發展,我國日益重視人工智能倫理規範研究,國家、行業和企業層面均已形成人工智能數據安全倫理規範。但是,由於相關倫理原則大多爲近期發佈,加之長期以來社會公衆對個人數據保護的意識觀念和重視程度存在較大差異,導致人工智能數據安全倫理的社會影響力受限,尚未真正形成社會共識。

(三) 國內外人工智能數據安全法律制定情況

界主要國家的數據管理和隱私保護法案促進人工智能行業健康發展。一是數據安全要求得到明確細化,指導人工智能行業合規實踐。2018 年 5 月,歐盟《通用數據保護條例》(GDPR)頒佈,建立了用戶個人信息訪問、修正和刪除請求相關機制,賦予歐盟用戶控制個人數據的權力,成爲各國制定個人信息保護法案的重要參考。其後印度《2018 年個人數據保護法案(草案)》、巴西《通用數據保護法》、美國《2018 年加州消費者隱私法案》等紛紛效仿《通用數據保護條例》(GDPR),對數據處理者的個人數據的收集和使用行爲加以明確規範,促使人工智能行業進一步規範數據收集和使用行爲。二是努力平衡數據權利保護與數據開放流動,促進人工智能發展。2018 年 11 月,歐盟通過《非個人數據在歐盟境內自由流動框架條例》,致力於爲企業和公共部門清除歐盟內部非個人數據自由流動障礙。2018 年 12 月,美國國會通過《開放政府數據法案》,要求聯邦機構必須以“機器可讀”和開放的格式發佈任何“非敏感”的政府數據並使用開放許可協議。三是爲人工智能數據安全監管提供了法律依據。各國個人信息保護法案對企業違規列出明確處罰規定,可作爲行政部門進行人工智能數據安全監管的有力依據,對相關企業產生威懾效應。2019 年 1 月,法國數據保護機構(CNIL)依據《通用數據保護條例》(GDPR)對谷歌開出 5000 萬歐元罰單。2019 年 7 月,美國聯邦貿易委員會(FTC)對“劍橋分析事件”的 Facebook 處以 50 億美元罰款。四是相關法案通過數據匿名化加強人工智能數據保護。爲了避免個人數據被挖掘和濫用,歐盟《通用數據保護條例》(GDPR)、日本《個人信息保護法》等通過數據匿名化的方式進行個人數據保護。數據匿名化能夠降低人工智能數據泄露風險,有利於人工智能行業健康發展。

我國立足現有法律基礎,加速完善數據安全保護立法。一是我國現行法律涉及人工智能數據安全相關內容,具備一定法律基礎。在國家法律層面,2009 年,《刑法修正案(七)》首次將特定主體的個人信息保護義務與責任寫入刑法,規定了出售、非法提供公民個人信息罪和非法獲取公民個人信息罪。《刑法修正案(九)》根據打擊個人信息犯罪的實際需要,將罪名調整爲“侵犯公民個人信息罪”。2012 年,《全國人民代表大會常務委員會關於加強網絡信息保護的決定》明確了網絡服務提供者的義務和責任,並賦予政府主管部門必要的監管手段,以保護公民個人信息安全。2016 年,《網絡安全法》增加了最少夠用原則、信息權利人刪除權、知情權、更正權等新規定,實現了與國際規則和歐美個人信息保護立法理念接軌。2019 年 1 月,《電子商務法》正式實施,提出個人信息收集和使用保存的最小化、將用戶知情強化爲用戶明示同意等細化要求。現有法律爲人工智能領域數據安全保護提供了基本依據。在部門規章層面,爲落實國家法律法規管理要求,政府部門重點針對個人信息保護出臺相應管理文件,保護個人信息安全和個人信息主體合法權益。工業和信息化部《電信和互聯網用戶個人信息保護規定》進一步明確電信業務經營者、互聯網信息服務提供者收集、使用個人信息的規則和信息安全保障措施。公安部《公安機關互聯網安全監督檢查規定》明確規定了互聯網安全監督檢查過程中的個人信息保護要求和處罰措施等內容。二是加速推進數據安全保護立法和人工智能專門立法。我國目前正在多層面推進數據安全和個人信息保護法律法規等規範制定,加速完善相關保護和監管規則,既包括國家層面的基本立法,如《數據安全法》、《個人信息保護法》,也包括部委層面的規章和規範性文件,例如最近公開徵求意見的《數據安全管理辦法》、《個人信息出境安全評估辦法》等。同時,全國人大常委會表示,已把人工智能方面立法列入抓緊研究項目,努力爲人工智能的創新發展提供有力的法治保障。

整體來看,我國目前尚未形成體系完善的人工智能數據安全法律法規,並且,數據安全和個人信息保護立法相對滯後,相關規定散落在《民法總則》、《網絡安全法》、《電子商務法》等法律法規中,亟需針對當前新技術和新業態發展,加速完成數據安全和個人信息保護的頂層立法,爲人工智能健康發展提供法律支撐。

(四) 國內外人工智能數據安全技術發展情況

主要國家積極推進人工智能數據安全技術研究。一是加大人工智能數據安全相關研究資金投入。2018 年 9 月,美國國防高級研究計劃局(DARPA)投資 20 億美元啓動 AI Next 項目,致力於開發第三代人工智能技術。其中,包括對抗性人工智能和高性能人工智能等。對抗性人工智能防止輸入異常數據造成的智能系統運行錯誤;高性能人工智能可降低算法對訓練數據的強依賴性。二是加強人工智能數據安全基礎理論研究。重點研究減少訓練數據量的人工智能基礎理論方法。遷移學習研究將已訓練好的模型參數進行遷移,來提升新模型訓練效率,使人工智能系統在不收集大量原始數據的情況下解決新問題,通過減少數據需求量來降低數據安全風險。聯邦學習研究在客戶端利用本地數據進行分佈式訓練,從而數據不用上傳至服務器,在不泄露用戶個人數據的情況下更新人工智能算法模型,有效保證數據安全性。谷歌 Gboard 利用聯邦學習,基於分散獨立設備的數據、詞彙大大提升了推薦準確性。三是積極攻克人工智能數據安全關鍵技術。重點加強人工智能數據加密技術研究。差分隱私研究提升人工智能系統的用戶隱私保護能力,使人工智能系統數據集包含噪聲,確保特定用戶個人隱私的機密性。蘋果公司將差分隱私技術應用於智能終端產品,用以保護用戶隱私信息。同態加密研究使人工智能系統直接使用加密後的數據訓練模型,且不會影響模型的有效性和可用性。

我國研究機構和企業同步開展人工智能數據安全技術研究,在部分領域取得較好進展。2018 年 7 月,清華大學創業公司瑞萊智慧成立,研究實現減少標註數據數量、決策可解釋、模型安全可靠相關技術,團隊近年來開發的“珠算(ZhuSuan)”概率編程庫,可減少實際場景中需要的標註數量。第四範式公司作爲國內遷移學習實踐領跑者,已將遷移學習算法應用到公司核心產品“先知”平臺,並在醫療領域實現落地應用。2019 年 6 月,微衆銀行人工智能團隊開源全球首個工業級的聯邦學習框架 FATE,並將相關成果貢獻給 Linux 基金會,加強了我國在人工智能數據安全領域的行業地位,加快聯邦學習技術在數據安全方面的落地進程。

由上可見,針對人工智能數據安全風險,相關技術研究正處於起步階段。美國等西方國家憑藉先發技術優勢,加大研發投入,提升人工智能安全能力。我國作爲數字經濟大國和人工智能先行國家,需從國家層面加強規劃引領和資金投入,維護數據安全,保障基於信任和安全的數據流動,促進人工智能數據安全技術研究應用。

(五) 國內外人工智能數據安全標準規範情況

國際標準化組織積極研究人工智能數據安全相關標準,ISO/IECJTC1 SC42 WG3 人工智能可信標準組正在開展人工智能風險管理、人工智能的可信度概覽等標準研製。IEEE 標準協會對涉及人工智能道德規範的倫理標準進行研究,包括 P7002 數據隱私處理、P7004 兒童和學生數據治理標準、P7005 透明僱主數據治理標準與 P7006 個人數據人工智能代理標準等。IEEE P3652.1 聯邦學習基礎框架與應用工作組已開展聯邦學習的相關標準化工作。區域和國家標準化組織開始重視人工智能數據安全標準,2019 年 5 月 1 日,美國國家標準與技術研究院(NIST)發佈人工智能標準化計劃綱要,將人工智能數據安全與隱私保護相關標準化納入人工智能可信標準領域。

我國全國信息安全標準化技術委員會(SAC/TC260)、中國通信標準化協會(CCSA)等標準化組織積極推進人工智能數據安全相關標準制定工作。TC260 在生物識別、智能終端、大數據、個人信息保護等領域開展了數據安全相關標準化工作。在生物識別領域,開展了《信息安全技術 指紋識別系統技術要求》與《信息安全技術 虹膜識別系統技術要求》標準研製,對生物識別系統的數據保護能力提出要求;在移動智能終端領域,開展了《信息安全技術 移動智能終端個人信息保護技術要求》標準研製,對移動智能終端中的個人信息與數據保護能力提出要求;在大數據領域,開展了《信息安全技術 大數據服務安全能力要求》標準研製,對人工智能相關的大數據安全能力提出要求。在個人信息保護領域,開展了《信息安全技術 個人信息安全規範》標準研製,明確了個人信息的收集、保存、使用、共享的合規要求,爲人工智能行業數據安全和隱私保護提供重要參考。在人工智能安全領域,中國電子技術標準化研究院牽頭開展人工智能安全標準框架研究以及《信息安全技術 人工智能算法安全指南》標準研製,將人工智能數據安全列爲重要研究內容。CCSA 在生物識別、人工智能終端、人工智能服務平臺、數據安全保護等領域開展了數據安全相關標準化工作。在人工智能終端領域,開展《人工智能終端產品 個人信息保護要求和評估方法》與《人工智能終端設備安全環境技術要求》標準研製,對人工智能終端的個人信息保護與終端設備環境的安全能力提出要求。在人工智能服務平臺領域,開展《人工智能服務平臺數據安全要求》標準研製,對人工智能服務端的數據安全管理與評估提出要求。在數據安全保護領域,成立數據安全特設組,整合資源對數據分級分類、數據安全合規性要求等重要標準進行研究制定。

目前,國內外人工智能數據安全以及隱私保護標準大都處於制定階段,我國在《數據安全法》和《個人信息保護法》尚未出臺的情況下,相關標準起到了行業指引作用,得到業界重視。但是,人工智能安全標準體系尚未形成,人工智能數據安全收集、使用和共享等關鍵技術標準尚未形成,亟需構建人工智能數據安全標準體系和發展規劃,並加快制定實施。

五、 人工智能數據安全治理建議

當前,人工智能處於技術發展和應用普及快速迭代時期,人工智能數據安全風險不斷凸顯,安全應用逐步深化,問題挑戰與發展機遇相伴而生。我國作爲數字經濟大國和人工智能先行國家,需堅持發展與安全並重的治理思路,以倫理規範爲引導,以法律法規爲底線,以安全監管爲約束,大力推進標準建設、技術發展和人才培養等工作,全面提升我國人工智能數據安全的綜合治理能力,有效保障我國數字經濟和智能社會的健康穩步發展,維護人民利益和國家安全,確保人工智能數據安全、可靠、可控。

(一) 明晰發展與安全並舉的治理思路

一是推進人工智能數據資源建設,在發展中解決安全問題。建立健全適合我國國情的數據流通共享機制,推動政府和行業數據開放,培育規範數據交易市場,鼓勵不同市場主體安全的進行數據交換,構建支撐我國人工智能產業發展的優質數據資源,在發展中規避數據偏見、數據權屬等人工智能數據安全問題。二是加強人工智能數據安全治理能力,以安全促進發展。基於人工智能數據安全風險研究,依託現有數據安全管理機制和技術手段,加大人工智能應用場景下數據安全防護技術研究,同時,促進人工智能技術在數據安全治理與網絡攻防對抗等領域中的應用,實現人工智能數據安全風險的提前感知和預防,規避訓練數據污染、數據智能竊取等數據安全風險,促進人工智能安全發展。

(二) 引導社會遵循人工智能倫理規範

一是加強人工智能倫理原則的社會宣貫。針對我國人工智能治理機構、行業和企業發佈的人工智能倫理原則,加強社會宣傳教育,加大社會影響範圍,真正形成社會共識,使其成爲人工智能參與方在設計、研發、使用、治理過程中的潛在道德觀念,提升人工智能用戶人羣特別是青少年的個人數據和權益保護意識,降低人工智能發展過程中可能存在的數據安全倫理風險。二是積極參與國際人工智能倫理規範制定。通過聯合國、G20、亞太經合組織、上合組織等國際平臺,積極開展國際對話與合作,在充分尊重各國人工智能治理原則和實踐的前提下,貢獻我國人工智能數據安全治理思路,推動形成具有廣泛共識的國際人工智能數據安全倫理規範。

(三) 建立人工智能數據安全法律法規

一是推進人工智能和數據安全相關立法工作。在國家層面,推進《數據安全法》、《個人信息保護法》以及人工智能相關法律出臺,明確人工智能數據安全法律原則,確立不同參與主體在人工智能生命周人工智能數據安全白皮書(2019 年) 中國信息通信研究院38期各階段所享有的數據權利與承擔的安全責任,設立人工智能數據安全問責制和救濟制度,並對人工智能相關數據過度採集、偏見歧視、資源濫用、深度僞造等突出問題進行規制,爲人工智能數據安全管理提供基本法律依據。二是完善人工智能數據安全相關部門規章。依據國家相關法律,結合人工智能在不同領域應用中的特點,針對各領域關鍵突出人工智能數據安全風險,制定和細化相關部門規章,提出對所屬領域的人工智能算法設計、產品開發和成果應用等過程中數據安全要求。三是開展人工智能數據安全執法。加強對人工智能數據收集、使用、共享等高風險環節安全執法,特別是對數據過度採集、數據資源濫用、侵犯個人隱私、違背道德倫理等行爲加大執法懲戒力度,創新和規範人工智能數據安全事件調查取證方法和程序,促進人工智能數據安全法律和規章有效落地執行。積累執法經驗並總結不足,形成反饋機制持續完善相關法律和部門規章。

(四) 完善人工智能數據安全監管措施

一是開展人工智能數據安全監督懲戒。依照國家法律法規,政府部門針對數據過度採集、數據偏見歧視、數據資源濫用等人工智能數據安全風險,通過線上線下多種方式實施監督檢查,及時發現和防範安全隱患。針對基於人工智能的網絡攻擊、深度僞造等嚴重不良行爲,利用技術手段監測和社會公衆監督等方式,及早發現,降低危害,加強懲戒。二是開展人工智能數據安全檢測評估。依託行業組織或者第三方機構,構建人工智能數據安全檢測評估平臺,制定人工智能產品、應用和服務的數據安全檢測評估方法和指標體系,研發安全檢測評估人工智能數據安全白皮書(2019 年) 中國信息通信研究院39工具集,通過測試驗證提升人工智能產品安全性和成熟度,降低人工智能數據安全風險。通過檢測評估強化企業的數據安全與隱私保護,爲人工智能研發和廣泛應用提供海量數據支撐。

(五) 健全人工智能數據安全標準體系

一是完善我國人工智能數據安全標準體系,加快急需重點標準研製。在我國人工智能安全標準框架下,加快研製人工智能數據安全標準體系,制定人工智能數據安全標準推進計劃。重點加快推進人工智能數據安全評估、人工智能平臺數據安全保護、自動駕駛用戶隱私保護等行業急需重點標準研製工作。二是優化我國人工智能數據安全標準化組織建設。推動國家信息安全標準化技術委員會、中國通信標準化協會等國家及行業標準化組織成立人工智能安全研究組,促進國家、行業和團體標準化組織聯合有序推進人工智能數據安全標準出臺。三是加強國際人工智能數據安全標準化工作。組織國內企業、科研院所等多方力量加強研究儲備,在IEEE、ISO/IEC、ITU等國際標準化組織中聯合發聲,提出更多人工智能數據安全相關提案,貢獻更多中國力量和方案,實質性參與和主導人工智能數據安全相關國際標準工作。

(六) 創新人工智能數據安全技術手段

一是加強人工智能數據安全保護基礎理論研究和技術研發。利用國家專項和社會基金引導產學研各界聯合開展人工智能數據安全風險產生機理和防禦理論的研究,並突破小樣本學習、聯邦學習、差分隱私等人工智能數據安全保護核心關鍵技術。二是建設完善我國人工智能開源學習框架,提供保障數據安全的人工智能基礎研發平臺。鼓人工智能數據安全白皮書(2019 年) 中國信息通信研究院40勵企業建設完善人工智能開源學習框架,增強框架內置數據安全設計和技術措施。並且通過我國市場優勢,加快培育自有人工智能開源平臺共享應用生態圈和產業鏈。三是促進人工智能在數據安全領域中的應用。鼓勵人工智能企業和數據安全企業充分發揮各自優勢,通過成立聯合實驗室、共同投資等多種方式,開展人工智能技術在數據安全治理領域的應用研究和產品技術研發。

(七) 培養複合人工智能數據安全人才

一是完善學校人工智能數據安全教育。鼓勵高校儘快形成人工智能與網絡信息安全交叉學科的人才培養模式,組建和壯大人工智能安全師資隊伍,促進國內外人工智能安全學生和教師共同開展研究,擴大人工智能數據安全人才培養規模、提高人工智能數據安全人才培養質量。二是加大企業人工智能數據安全人才培養。鼓勵企業內部創辦培訓機構,或與科研機構、高校等建立聯合人工智能數據安全培訓基地,加強企業人員人工智能數據安全管理和技術能力培訓。三是加強國外人工智能數據安全人才引進。制定人才政策引進專項人才,支持高校或企業引進世界一流人工智能數據安全領軍人才;鼓勵企業通過資本運作等方式吸納掌握核心技術的人工智能數據安全團隊。

致 謝

本白皮書在撰寫過程中得到了中國信息通信研究院政策與經濟研究所、泰爾終端實驗室以及深圳市騰訊計算機系統有限公司、阿里巴巴(中國)有限公司、北京字節跳動科技有限公司、網易(杭州)網絡有限公司等單位的大力支持,特此感謝!

報告原文鏈接
報告PDF版下載鏈接

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章