以前,日誌是我們的命脈 現在,日誌是我們的責任

本文最初發佈於 Substack 網站,經原作者 Vicki Boykis 授權由 InfoQ 中文站翻譯並分享。

當我們收集太多數據時,會發生什麼?

Confluent 的聯合創始人、Kafka 的聯合創始人 Jay Kreps 寫道:日誌是從一開始就有的。

日誌只是按時間排序的一系列記錄。它被配置爲允許在末尾追加越來越多的記錄,如下圖所示:

日誌記錄了所有的事情。計算環境中有各種各樣的日誌

數據類型示例 來源
點擊流日誌 Web 服務器、路由器、代理服務器、廣告服務器
應用日誌 本地日誌文件、log4j、og4net、WebLogic、WebSphere, JBoss、.Net、PHP
系統日誌 路由器、交換機、網絡設備
Windows 日誌 Windows 應用、安全和系統日誌

其中最重要的是服務器日誌,它可以跟蹤訪問互聯網上的內容和應用的計算機。

當你的計算機訪問一個網站時,託管該網站的服務器將從你的計算機獲取並保存一系列詳細信息,包括計算機訪問了哪些資源(網頁)、計算機訪問這些資源的時間以及訪問這些資源的計算機的 IP 地址。

這些日誌的標準稱爲“普通日誌格式”(Common Log Format),它們看起來像這樣

64.242.88.10 - - [07/Mar/2004:16:05:49 -0800] "GET /twiki/bin/edit/Main/Double_bounce_sender?topicparent= HTTP/1.1" 401 12846
64.242.88.10 - - [07/Mar/2004:16:06:51 -0800] "GET /twiki/bin/rdiff/TWiki/NewUserTemplate?rev1=1.3&rev2=1.2 HTTP/1.1" 200 4523
64.242.88.10 - - [07/Mar/2004:16:10:02 -0800] "GET /mailman/listinfo/hsdivision HTTP/1.1" 200 6291

這看起來可能並不是很多,是吧?但從這些日誌中,你可以由此推斷出訪問這些資源的用戶的概況,他們是如何瀏覽你的網站,將他們與特定的地理位置聯繫起來,等等。

這是用戶跟蹤日誌的集合,稱爲“點擊流數據”(Clickstream Data)。對於 Facebook 和 Netflix 這樣面向消費者的互聯網公司來說,點擊流日誌就是他們的命脈。早在 2010 年,Facebook 就開始收集這些數據,並使用 Flume(Hadoop 的開源日誌流解決方案)來收集這些數據,並將其傳輸到各種系統中進行分析。每家公司都在處理日誌:UberAirbnbNetflix,以及幾乎每一家電子商務公司

今天,收集最多日誌的公司之所以能勝出是因爲,從表面上看,研究這些日誌,就像對待許多互聯網犯罪一樣,可以讓他們瞭解用戶在做什麼,什麼時候做,並調整網站讓他們的用戶做得更多的事情。完成更多的購買;完成更多的 MOOC 課程;將免費用戶轉換爲付費用戶;想辦法讓更多的用戶點贊;等等。然後,這些公司可以就他們爲收集這些日誌而構建的所有整潔的數據工程平臺,以及他們能夠在這些平臺上進行分析的數據科學,寫一些不錯的博文,從而使他們的平臺提升 15%(對於提升的定義非常寬泛)。

幕後真正的贏家是參與處理日誌數據的公司。例如,Jay 的公司 Confluent 爲 Kafka 提供了強大的支持,Kafka 是一款流處理解決方案,在過去五年裏取得了巨大的成功。但還有數百家公司專門從事點擊流處理工具鏈的每個組件。整個行業都是圍繞着收集、存儲和分析日誌數據的需求而發展起來的。只要看看今年的數據景觀圖就知道了。

所有這一切(日誌收集、數據科學、工具貨幣化)對於收集日誌數據的公司和構建工具來收集日誌數據的公司來說都進行得非常順利,直到最近發生了一些事情。

首先,劍橋分析公司(Cambridge Analytica)的醜聞不知何故做出了不可思議的事情,至少在一定程度上改變了公衆對 Facebook 的主流看法。這意味着媒體最近對這些科技巨頭的負面報道越來越多,這反過來又導致了議員們的不滿。例如,即使在兩年前,看到任何人談論拆分科技巨頭的言論,都會令人難以置信,更不用說作爲總統競選平臺的積極組成部分了

第二就是,GDPR(General Data Protection Regulation,歐盟通用數據保護條例)出臺了。在歐洲,這是一筆巨大的交易Google 已經因爲違反這一條例而被課以鉅額罰款。規模較小的公司舉步維艱。第三方廣告和跟蹤都被查封了

在美國,除了往人們的收件箱裏亂扔通知之外,GDPR 並沒有產生太大的影響。但是 CCPA(California Consumer Privacy Act,加州消費者隱私法案) 將會產生很大的影響。CCPA 是加州的隱私法案,將於明年一月份生效

毫無疑問,這項法案是目前美國任何一個州頒佈的最嚴格的隱私法案,賦予了消費者更多的權利來保護他們的私人數據。隨着包括 GoogleFacebook(這兩家公司最近都遭受了數據泄露)在內的各種大型技術巨頭進駐加州,加州第 375 號法案將對數據隱私產生深遠的影響。加州第 375 號法案將於 2020 年 1 月 1 日全面生效。

屆時,在加州運營的公司基本上必須要做到能夠完全告知消費者他們正在收集的信息,並允許他們刪除所有的數據來選擇退出。這意味着要刪除成千上萬的日誌,並找出如何重新構建日誌收集系統的平臺,以便能夠刪除數據。

CCPA 的天才之處在於,如果一家大公司在加州運營,那麼它很可能也在美國其他所有州都有運營。而且,人們很難在州 / 司法管轄區一級上將混合的日誌數據分離開來,這意味着要麼公司將遷移總部離開加州,要麼必須遵守 CCPA 對其所有數據更嚴格的規定。

日誌是一件有趣的事情:一方面,它們非常有用。而另一方面,因爲它們是按設計呈指數增長的,而且數量從來就沒有減少過,它們似乎無處不在,就像碎屑一樣,你就是無法擺脫。它們是一個巨大的麻煩,需要跟蹤、存儲、清理、與其他數據綁定,同樣重要的是,爲了數據科學目的,還需要樣本。

CCPA 本身就給這個日誌存儲和分析系統帶來了壓力。

在我看來,我們將要看到的結果是,收集更多的日誌並非好事一樁。你保存的日誌越多,你必須刪除的就越多。你必須爲客戶提供的服務也越多。對於 GDPR 所揭露的這類違規行爲,責任就越大。

Maciej 是我最欣賞的網民之一,三年前,他在一次重要的數據會議 Strata 上的主題演講中就預言到了這一點。

自從我第一次聽到這個演講之後,我就一直在引用它,但是它變得越來越重要了。它被稱爲“數據困擾”(Haunted by Data),他說:

關於大數據的術語出人意料地富有田園風格。數據通過流進入數據湖,否則將被記錄在日誌中。數據豎井(Data Silo)位於舊的數據倉庫旁邊,那裏曾是祖父曾經用來存放數據的地方。

在它上面飄着的是雲。然後這些東西可能會流入數字海洋。

我想挑戰這幅圖所描繪的情景,請你們不要把數據想象成一種原始資源,而是一種廢物,一堆我們不知道該如何處理的具有放射性、有毒的污泥。

這是真的。公司和工程師們仍然在討論收集和分析日誌的複雜方法,而 Hacker News 則充斥着大量關於分佈式流數據收集和分析系統的討論。但是,主流媒體開始談論其他事情:日誌收集是如何影響我們的社會,以及如何拆分收集日誌的科技公司。

現在,日誌還不是一種責任,但很快就會成爲責任。正是這一點,比任何複雜的流架構都值得公司認真思考。

以我作爲付費數據科學家的角度來看,這裏真正非常大的問題是,這對數據科學意味着什麼呢?迄今爲止,數據科學的爆炸式發展都是基於預測日誌來了解用戶行爲的藝術。這是否意味着數據科學以及支持它的工具生態系統正在消失呢?

我倒不這麼認爲。但我認爲在未來五到十年內,數據科學的發展將與前十年有着根本的不同。

如果說,前十年的數據科學都是關於收集和分析所有數據,那麼後十年將是關於如何謹慎和有選擇性的收集和分析數據。

我想在這裏提到兩個線索作爲一個起點,並在未來的稿件中進一步探討:採樣的技巧,以及刪除和模糊化用戶數據的技巧。

首先要說的是採樣。在 2000 年的一篇文章中,這篇文章令人驚歎,但被人低估了:Jakob Nielsen 在這篇文章中談到了爲什麼只需五個用戶來執行測試。乍一看,這似乎很瘋狂。你怎麼可能推斷 Facebook 的 10 億用戶,以及他們的地理、經濟和種族多樣性,會在這個網站上做什麼呢?我不知道只需五個用戶就夠了,但這篇文章背後的指導原則是,一旦你超過一定數量的用戶,你收集的數據就只是額外的噪音,這點是正確的。真正的挑戰將是如何收集足夠多的數據以達到統計上的有效性,而不是多收集一個日誌。

其次,刪除和模糊化數據的能力將變得更加重要。我還沒有看到任何關於如何正確配置系統以增量方式來刪除數據的討論。但這將變得非常重要,因爲如果你從不收集數據,就永遠不能放棄這些數據。Snapchat 的想法是正確的。我樂觀地預計,未來將會出現更多臨時數據收集工具。

實際上,我看到的更多的是關於https://www.theverge.com/2019/9/5/20850465/google-differential-privacy-open-source-tool-privacy-data-sharing">差分隱私(Differential Privacy)的討論,或者在使用用戶數據進行統計分析時模糊化用戶數據的做法,這些在 Google 已經開始出現了(Google 在這方面有很多經驗)。差分隱私本質上就是在真實數據中加入白噪聲,也就是虛假數據,直到真實數據在統計上仍然有效,但你卻不能從中推斷出任何一個真實用戶。

譯註:差分隱私,英文名爲 differential privacy,顧名思義,保護的是數據源中一點微小的改動導致的隱私泄露問題。比如有一羣人出去聚餐,那麼其中某人是否是單身狗就屬於差分隱私。

當 CCPA 開始發揮作用,公司開始處理日誌問題時,請注意這兩個方面。

作者介紹:

Vicki Boykis,美國費城的數據科學家。

原文鏈接:

[Logs were our lifeblood. Now they’re our liability.

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章