張鈸、高文、楊強同臺論道“AI精度與隱私的博弈

2020-06-23 22:08:21

張鈸、高文、楊強同臺論道“AI精度與隱私的博弈”

者 | 陳大鑫、青暮

編輯 | 叢 末

AI時代,大衆是不是真的就沒有隱私了呢?

以聯邦學習爲代表的新興AI技術,能否實現AI協作,提升模型精度的同時實現數據隱私的保護。那麼中國如何搶佔人工智能安全發展的制高點?下一個10年中人工智能又將何去何從?

就上述話題,AI Time聯合北京智源研究院,邀請了張鈸院士、高文院士、楊強教授、唐傑教授、劉知遠副教授進行了第15期論道,共同探討“AI精度與隱私的博弈”。在具體討論過程中,採用了唐傑、劉知遠發問,張鈸、高文、楊強回答的形式進行。

在論壇中,幾位嘉賓提到,國外以“歐盟的 GDPR”爲代表的相關法律法規以及國內的相關法律規定都取得了長足進展,隱私計算技術也出現了三大主流門派:譬如說安全多方計算--少林派;安全可信計算環境方式--華山派;聯邦計算--武當派。

另外,幾位嘉賓還就提升模型精度是否一定意味着犧牲隱私保護?如何讓更多人蔘與到技術創新中來,是開源還是激勵機制?下一代AI技術應該具備哪些特點?我們如何搶佔制高點?人與AI如何更好地協作,創造更大的價值?等等這些問題進行了討論。

以下是演講全文,AI科技評論做了不改變願意的整理,未經嘉賓確認。

1

 

隱私保護是否阻礙了人工智能的發展

唐傑:提升模型精度是否一定要犧牲隱私保護?重視隱私保護是否阻礙了人工智能的發展,對AI的應用和用戶隱私的數據安全的擔憂,是杞人憂天還是未雨綢繆,如何處理好AI的技術,如何提高模型的精度的同時,能夠實現智能與精度以及隱私的同時保護?

張鈸:今天討論的問題是人工智能和隱私保護的關係,實際上涉及到技術和隱私保護的關係。隱私保護的原定義是:有關個人或者團體的隱私,在本人或者團體沒有允許情況下,不能隨便的收集、傳播和利用。

但是隨着技術的變化,隱私被破壞的可能性越來越大。例如,有了照相技術,就有肖像權的問題。所以,按照上述隱私保護定義,照片不能隨便獲取,也不能隨便傳播,更不能隨便使用。

有了網絡以後,此問題就變得非常突出,照片在網絡上到處都有,隱私保護也遇到了新挑戰。所以,技術確實帶來了新的隱私保護的問題。

如何解決?主要有兩個方面思路:一方面是隱私如何不被誤用和濫用,這屬於人工智能的治理問題。第二個方面是如何利用技術的手段來保護個人隱私或者團體的隱私,包括數據的安全等等。

高文:隱私保護和技術本身的發展關聯性很強。如果隱私保護不出問題,也許不需要太多的技術關注,如果隱私保護不好,可能就需要技術上多想一些辦法提供保護。

隱私保護是一個社會學範疇的問題。例如,家庭成員之間的90%的隱私是“互通”的;擴大一圈,親屬之間,可能是80%的隱私“互通”,再擴大一圈,例如同學關係,長期生活工作在一起的同事,可能掌握你50%左右的隱私。隨着圈子的擴大,隱私共享的可能性越來越低。所以,在社會中“隱私”是一個相對的概念。

擴展到人工智能相關的隱私,例如人臉識別,大家之所以這麼敏感,是因爲在法律方面,相關“規則”不配套。所以,如何做好隱私保護,一方面儘可能從技術方面做一些貢獻,同時完善相關法律法規。

張鈸、高文、楊強同臺論道“AI精度與隱私的博弈”

楊強:隱私的問題一直是人工智能的短板,尤其深度學習模型的訓練離不開大數據的支撐,大數據的獲得的方法通常有兩個方式,一是互聯網購買,二是聚合不同的數據源,這兩種方式或多或少會侵犯用戶隱私。

隨着深度學習的精度、數據量的增加,隱私的受威脅程度也在增加,相應的一些法律法規也在出臺,例如歐洲的GDPR。那麼隱私保護法規是否會阻礙人工智能的發展?在2018年時,我問了瑞典的工業部長這個問題。他的回答到:“人類的技術進步是螺旋性的,我們今天在歐洲提出了非常嚴格的隱私保護法,也促使人工智能技術公司都遵照法律創造下一代的保護隱私的技術,這也是我們擊敗美國對應公司的一個辦法,畢竟,美國這方面沒有歐洲嚴格。”

瑞典工業部長這番話給我們的啓示是,隱私保護法確實爲人工智能和大數據規定了很多限制,但同時也激勵我們發展下一代的既能保護隱私又能夠提高技術的方法。除了聯邦學習,還有多方安全計算、差分隱私等等技術正在探索的路上。

2

 

聯邦學習等技術如何實現突圍

劉知遠:針對數據隱私愈演愈烈的趨勢,我們接下來的技術突圍之道是什麼?以聯邦學習爲代表的AI新技術,它能否解決大數據AI協作與數據隱私保護之間的矛盾?這些技術的優勢和侷限性有哪些?如何讓更多的人來參與到這些技術的創新中來,是通過開源還是有什麼其他的激勵機制?

張鈸、高文、楊強同臺論道“AI精度與隱私的博弈”

高文:我贊成百花齊放:一方面,讓做隱私保護技術的研究員,儘可能去尋找最好的技術,讓隱私得到最好的保護;另一方面,關乎社會的誠信,要想整個技術和社會和諧快速的發展,誠信非常重要。前些年美國發展的比較快,誠信起着非常關鍵的作用。

而現在,中國已經走過了快速發展的階段,在最開始原始積累時,有很多原罪性的東西不能較真,我們現也慢慢度過了那個階段,正在進入非常規範的社會發展期。所以現在誠信非常重要。

前幾天我看過一段視頻,視頻裏提到,之所以中國的人工智能發展比美國快,是因爲中國民衆有限度讓步了個人隱私。這種讓渡使得技術在沒有多少壁壘的情況下,可以快速的發展。

現在隱私保護現狀是:美國比中國嚴格,歐洲又比美國嚴格,也即歐洲是要求最嚴的。剛纔楊強教授表示,歐洲是用一種嚴格的辦法倒逼技術發展,如果技術出現了,也許就會形成壁壘,甚至到時中國不按照歐洲的規範操作,很可能中國的人工智能產品無法打入歐洲市場。

反過來,如果“中國規矩”過嚴,可能對技術積累和發展造成障礙。所以我贊成百花齊放。既不完全遵循歐洲人的做法,也不能置之不理,換句話說,要鼓勵中國模式,這樣中國的人工智能才能百花齊放。

張鈸、高文、楊強同臺論道“AI精度與隱私的博弈”

張鈸:我們爲什麼要去保護隱私?隱私保護的目的清晰非常重要。從西方角度看,他們把隱私的問題看做價值觀,是一種絕對化的體現,也即個人數據只要不經本人許可,任何情況下,其他人都無權收集,無權利用和傳播。

這個觀點看起來很有道理,但是技術發展到今天,我認爲此看法不全面。例如人臉識別,如果一條街道不裝視頻監控,那麼這條街道可能經常會發生盜竊,引發社會不安全問題。按照西方的觀點,如果街道上有一個用戶不贊成安裝,那麼監控器就無法安裝。

按照東方綜合考慮個人利益和大衆利益的觀點。這個監控器應該裝,因爲能夠保證大家安全。將“裝”或“不裝”問題簡化,關鍵在於個人的隱私不要被濫用,只要保證這一條,我覺得就行了。此問題在中國顯得比較簡單,在西方摻進去了意識形態,就變得非常複雜。

綜上,我的觀點是要把爲什麼要保護隱私這個問題想清楚,很多問題迎刃而解。

劉知遠:楊強老師,作爲聯邦學習這一代表方向的提出者,您可以分享一下如何去利用這些技術,以及如何協同大數據AI和隱私保護之間的矛盾?

楊強:聯邦學習技術的出現是多種不同技術的聚合,一種是人工智能,一種是多方安全計算,一種是加密技術,一種是分佈式這種大規模分佈式計算。

我舉兩個例子,一個例子是谷歌,它有安卓系統,有幾千萬人在用它的安卓系統,那麼每一臺設備,都需要AI的模型的不斷更新,過去的方式是把自己的私有數據上傳到雲端,雲端把這些數據整合以後,再訓練出一個更新的模型下發給大家,此過程就暴露了每一個用戶的隱私。

谷歌在兩年前提出了“set聚合”的辦法,可以不上傳數據本身而只上傳一些模型參數。這種加密後參數的集羣加以整合,然後形成一個更新的模型,再下發給各個用戶,整個的過程中服務器並不知道用戶的數據,也無法推斷出用戶的數據,整個過程形成了閉環,就能實現聯邦學習。

聯邦學習在衆多研究者的推動下,可以推廣到很多的算法,例如,深度學習算法,邏輯迴歸算法,XGBOOST算法等等。所以此領域非常活躍,近幾年發展得非常快,在to C和to B的兩大領域都有所發展。

另外,技術開源對聯邦學習也非常重要。因爲聯邦學習需要多方協作,在協作的過程中,每一個參與方都要保證拿到的軟件是沒有“後門”的。確保無“後門”,最好的方法就是公開,讓每位研究者都能檢查開源的模型,用大衆的力量保證開源軟件是安全的,所以開源和聯邦學習是分不開的。

張鈸、高文、楊強同臺論道“AI精度與隱私的博弈”

唐傑:隱私保護非常重要,在社會共同體裏,保證個人的隱私屬於個人優化,但也要優化整個社會。在當前中國的情況下,也許把兩者同時優化是一個比較好的方式。楊老師說的非常對,技術和法律、法規都是螺旋式發展。以美國當下的技術,其深度學習的發展確實比較領先,但是歐洲開始在法律、法規上發力,也許在未來,新的技術有可能在歐洲或中國誕生,所以這就變成了螺旋式的發展。這一點對我啓發非常大,其實我也想把一個問題再拋回給楊老師。

在聯邦學習中,大家都把數據和模型加密了並傳遞這個模型。現在假設有一方是惡意的,他傳遞了惡意的數據,該怎麼辦?怎麼保證在傳遞數據或傳遞模型的過程中不被惡意攻擊呢?

楊強:唐老師提的問題是現在聯邦學習的一個部分:對抗機制。某個參與方是惡意的,其惡意行爲表現在:此參與方可以通過加密參數推測其他參與方的數據,也有可能在數據裏面加入一些惡意的機制,使得“聯合模型”總體朝着對他有益的方向發展。

如何解解決?有各種辦法,例如可以不用差分隱私,用比較嚴格的同態加密的辦法。也可以在使用差分隱私的情況下,添加噪音讓對方無法推測其他人的數據。總的來說,這個過程是動態的,表現爲道高一尺,魔高一丈,永遠沒有結束的那一天的。

劉知遠:張鈸院士團隊開展了非常多針對深度學習對抗攻擊方面的研究。那麼請張院士來分享一下,關於隱私保護、聯邦學習以及對抗攻擊可能存在的研究課題?

張鈸:隱私保護實有兩類性質的問題,剛纔我們的討論屬於企業和個人自律,即如何正確合理公平地使用隱私材料,我贊成必須靠個人和企業的自律來實行。因爲個人信息也好,私人擁有的數據也好,不能按照西方對隱私的定義(沒有得到本人的允許就不能用)。

舉個例子,現在很多服務企業,做用戶模型時用了大量的用戶的材料,目的是給用戶提供更好的、更個性化的服務。那麼這些材料沒有經過個人的許可就不能用?

回到剛纔爲什麼要保護隱私的問題?其中涉及到保護和使用的關係,此關係非常複雜,可以規定很嚴,也可以規定很鬆。在發展的過程中,我贊成逐步改進,不一定在最開始就非常嚴格,要求非常完整的規則,因爲這並不一定會有利於人工智能發展。

現在討論另外一個問題,即如何防止人工智能的技術被濫用?這個問題目前是最嚴重的。在這裏必須做兩方面的工作,一方面是要建立規則,訂立嚴格的法律限制行爲;另一方面要發展,也即發展安全、可靠、可信和可擴展的人工智能技術。只有往這個方面努力,技術發展才能真正保證人工智能的安全。

3

 

下一代人工智能:以人爲中心

唐傑:下一代人工智能的技術應該具備哪些特點。另外,在當下AI大熱的時候,我們如何搶佔制高點?尤其在中國,現在強調去除“僞論文、僞數量”,所以,我們應該如何做顛覆式的創新?

楊強:下一代人工智能一定以人爲中心。當前AlphaGo、無人機、無人車此類人工智能都沒有真正考慮人的因素。近幾年越來越多的發現機器和人要協作,那麼在這個過程中,人的利益有哪些我們需要關注的呢?

可解釋性也是下一代人工智能的關注點,這裏涉及人機協作。其他方面,例如如何能夠把人的智慧賦予機器,讓機器站在人類的肩膀上進行學習也是下一代人工智能的一個特點。

高文:我把可解釋性排在下一代人工智能的第一位,排在第二位的是高效能。因爲現在的人工智能不管是追求精度,還是希望能夠超過人的性能,其實付出的代價非常大。例如,最近彭老師準備投資40多個億,做鵬城雲腦II,希望獲得1000個P的AI算力來支持大模型的訓練。然而“人”其實不需要這麼大的算力。所以,我希望下一代的人工智能,效率高一些,不要爲了訓練一個模型花費這麼大的算力。

張鈸:我在考慮一個問題:人工智能最終目標是什麼?我們現在做了哪些事情?我們花了近60年的時間,實際上做兩件事情,一件事是根據符號主義的思路,建立一個以知識爲基礎的推理的模型,並用它模擬人類的理性行爲,目前有了一些進展。

第二件事就是深度學習,深度學習其實是聯結主義的思路,是從神經網絡的層面上試圖模擬人類的智能行爲。那麼這兩件事現在做的怎麼樣呢?很多人評價:這只是人工智能的序幕,大戲還沒開始。爲什麼說它是序幕?

因爲這兩個方式都不可能達到真正的智能。第一個方式沒有解決符號的基礎問題,例如基本概念:如何告訴計算機什麼叫“喫飯”?什麼叫“下圍棋”?你只能用符號告訴它說這叫“喫飯”,這叫“下圍棋”。其實這種“告訴”沒有“根基”,而這種“根基”產生於人類跟環境交互中建立起來的概念,也就是說它只有喫過飯、睡過覺,才能知道什麼叫喫飯,什麼叫睡覺。因此現在推理也好,符號主義的方法也好,並不是真正的智能。

深度學習更是這樣。深度學習和人的感知相差太多,它只做了分類、感知等事情,並沒有做到認知,也即它可以區分物體,但是它並不認識這個物體,綜上,上述兩種方式都走不遠。

也有相當多人已經認識到,只有把這兩種方式結合起來,纔有可能產生真正的智能,因爲這兩個是互補的。具體而言,符號主義是解決高層的理性分析、理性智能的問題;聯結主義解決感知的問題。所以,“結合”問題得到解決的話,目前人工智能存在的那些缺點:不安全、不可靠、不可解釋、不容易擴展都能夠解決。

這個思路經過這段時間大家的摸索,已經看到了一條可行的路,當然這條路還很長,因爲這是從0到1的創新,我們只有加強基礎研究,加強人工智能的基礎研究,才能夠解決這個問題。

第三代人工智能的方向也很明確,就是要把第一代人工智能的知識爲基礎的知識驅動的方法跟第二代人工智能的數據驅動方法結合起來。

唐傑:我們把這兩個結合起來實現認知,那麼過程中有沒有階段性,也即能不能分解:第一步要做什麼,第二步做什麼,或者是說分解成幾個方面?

張鈸:在認知這條路上的,大家已經做了好多工作,比如說對抗神經網絡,還有在深層次的神經網絡,就是通過深層的網絡來學習先驗的知識。例如,人要認識狗,必須要有狗的先驗,計算機沒有狗的先驗,所以它不認識狗。

狗的先驗從哪來呢?深層次的網絡是通過無監督或者弱監督學習來實現。所以大家已經在往前走。那麼我們也做了一個工作,把深層次的網絡等幾個網絡結合在一起,就可以把物體的先驗知識通過弱監督或者無監督進行學習,那麼利用這個知識來指導分類,使得它既可以分辨物體,又可以認識物體。

張鈸、高文、楊強同臺論道“AI精度與隱私的博弈”

唐傑:進行下一個問題,我們如何搶佔制高點?從學生的角度來看,如何做科研,也就是說如何在研究上搶佔制高點,如何在工程上和系統上搶佔制高點。如何看待當前“僞論文和僞數量”的觀點?

高文:搶佔制高點和發表論文一點都不矛盾,其中研究的動機是關鍵,因爲以前有很多學生的動機是發論文獲得畢業資格,研究本身是否是新的,學生並不在乎。所以,老師的責任就很大,老師能否“指揮”學生做一個完全陌生的問題,如果學生能夠做出來,那麼肯定學生將來很厲害。但大多數老師沒有這個經歷。所以,搶佔制高點最關鍵是瞄準一些沒有人做過的東西,需要老師“監督”學生做創新,改變傳統的“發論文畢業”的研究動機。

楊強:唐老師說的非常對,現在論文都成災了,一些頂會動輒就是上萬個投稿。但這個現象並不奇怪,因爲大家認爲一個方向有前途,必然第一件事是寫文章,從而出人頭地。那麼有胸懷、有志向的研究者應該是在創新上面努力。創新的一部分來源於選題,而現實是,大家可能更關注文章的數量,而沒有在選題方面進行更多的關注。

我曾在《學術研究》這本書裏面提到什麼樣的研究該做:首先這個研究很新,沒有發生過,例如在計算機出現的時候,語言識別就是好方向;第二是這個研究很難,乍一聽感覺無從下手;第三,這個問題很容易解釋,此類問題往往一句話就能描述,但對計算機來說並不容易。

有了這些條件還不夠,還需要有方法把“研究課題”分解成不同的階段,每一個階段就是一個小目標,畢竟小目標好解決一些。另外,數據最好是很容易獲得,然後這個研究纔可以落地。

大家如果按照上述方式去尋找一些新的問題,然後會發現,總是有一些新的問題沒有解決。在大家眼裏,這種包含“新問題”的文章並不嫌多。

舉個例子,例如在聯邦學習領域,一有文章出現,我就立刻去讀。爲什麼呢?因爲這是一個新的領域,例如遷移學習,通用性的遷移學習領域很新,做的人卻很少。所以這樣的領域並不是說在今天不存在了,還是有新的領域值得大家去發現的。

張鈸:我基本上同意剛纔兩位老師講的內容,但是基礎研究最後落腳還是落在發表論文上,我們現在發表論文數量比較多,這是一個非常大的進步。特別是反映了我們從過去發表不了文章,很少能夠發表文章,到現在能夠大量的發表文章,這說明我們在基礎研究上的巨大進步。

現在大家對“論文數量”產生批評的態度,主要原因是:我們現在基礎研究的平均水平,實際上是接近世界水平的。但是缺點在哪呢?最高水平跟世界發達國家差的太多,也就是說我們還沒有一個從0~1的發現,這種發現在發達國家裏面能夠達成,我們現在還做不到。

不要對現在的現象做過多的批評,過去沒有條件做事,當年我們都不知道前沿在哪,這導致是最前沿的文章都發表不出來,怎麼可能去做0~1的發現。所以我們現在平均水平已經接近世界一流的情況下,是有條件做0~1的發現,也就是說可以做一些具有巨大影響力的基礎研究。

現在中國在在體制上還有很大的困難。我們有很多優秀的學生,但一般情況下不敢讓這個學生做非常困難、非常新的問題。因爲我們的學生經不起失敗,而研究探索性的問題,應該要經歷相當多的失敗。

在這方面,外國體制的表現是:博士生畢不了業,其實產生不了多大的影響。比如一個國外博士生在校園裏做了8年,到期了做不出來,結果去找工作,好多公司搶着要他。爲什麼他如此搶手,因爲他有8年的“工作經驗”。

如果在國內,有一個學生非常優秀,但在清華大學讀博士期間沒有做出成果,我們如何處理這個問題?現實情況是:他根本沒法畢業,雖然沒有很難找到工作,但找到的工作往往不太理想。

我們現在有條件做事情了,如果不能從體制和機制上去解決這個問題,這個事情還是做不了的。從學生角度來看,也不願意去做風險太大的工作。作爲老師,因爲對學生的前途負責,也不敢把任務交給他。

所以我們的在基礎研究上的體制機制還是需要改進的,不然的話,不容易做成功事情。

張鈸、高文、楊強同臺論道“AI精度與隱私的博弈”

劉知遠:下一代AI側重於精度和隱私保護,那麼在聯邦學習等等方面我們有什麼樣值得研究的話題?

楊強:聯邦學習實際上來自幾個不同領域的交叉。值得研究的話題有以下幾個方面:首先當數據分佈在不同的數據擁有方手裏的時候,如何能夠讓模型平衡增長。

第二,如果我們用一個加密機制進行參數溝通的時候,如何能夠保證參數的保密的前提下,又能夠把模型的速度、效率提升。

第三,如何能夠做出更加有效的並且高效的加密算法,這種算法的特點不僅能夠保護數據本身,同時又允許在加密的狀態下進行各種運算,包括非線性運算,也即支持像深度學習此類的一種網絡計算。

另外一個維度是如果我們網絡有多個參與方,如何能夠建立一種激勵機制,例如用經濟學和博弈論的觀點來設計一個好的機制,能夠讓大家不斷的有動力參與到數據聯盟。

還有一個維度是人的因素:在進行協作的情況下,如何讓各方遵循同一個標準,也即如何建立一些行業和國際的標準,來讓大家有共同的語言交流。

唐傑:隱私保護要做精度和穩定性的提升,而下一代人工智能一個很重要的方向是可解釋性。那麼聯邦學習平臺會不會可解釋性變成一個黑盒子,甚至變成一個更復雜的黑盒子,反而使得我們下一代人工智能很難實現?

楊強:聽起來可解釋性和隱私保護是矛盾的,但實際上並不是。例如可以保護原始的數據和模型的參數,但是模型的推理機制卻是可以透明的。再例如,一個人去看病,醫生往往會給你解釋這個病爲什麼開這個藥,但是醫生不會給你透露是從哪些案例裏面得到這些信息。所以隱私保護和可解釋性是兩個不同的維度,可以分開討論。

4

 

總結與展望:人工智能治理問題很重要

國家新一代人工智能治理專業委員會剛發佈了《新一代人工智能治理原則》,發展負責任的人工智能,那麼人和AI如何更好的協作,從而創造更大的價值。希望三位老師做一個總結和展望。

張鈸:今天討論的比較多的問題是關於人工智能的治理問題,這是個非常重要的問題。對搞技術的人員來說,因爲只有把人工智能的治理問題想清楚了,才能夠知道技術應該往什麼樣方向發展,應該做哪些研究工作。

高文:發展人工智能是爲了造福人類、造福社會。一個東西的發展,其實是成本和社會影響的產物。如果社會影響很大,那麼可以在成本上多付出一些,如果社會影響沒有那麼大,技術上也不要花那麼高的成本。所以,在發展技術的同時,一定要看到它對社會帶來的影響到底有多大。

楊強:我們大家都關注下一代的技術的發展,尤其是下一代人工智能,我們現在也看到社會對我們使用人工智能有越來越多的限制和要求,那麼這些限制和要求乍看上去是限制了我們的發展,但實際上是爲我們提供一個機會,一個創新的機會,所以我在此鼓勵各位學者和學生多多關注,尤其是在隱私以及人類與人工智能的協作方面引發的一些新的題目。

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章