區塊鏈和數據科學:如果同時應用這兩種技術,將會實現什麼?

區塊鏈和大數據都是頂尖的新興技術,有望徹底改變多個行業,從根本上改變企業和組織的運營方式。人們可能會認爲這些技術是互斥的:每種技術都會形成獨特的路徑,且彼此獨立地應用。

但你要是這麼想的話,你就將會錯得離譜了。

就像數據科學一樣,區塊鏈正在逐步改變一些行業的運作方式。雖然數據科學側重於利用數據進行適當的管理,但區塊鏈卻是通過維護分散的賬本來確保數據的可靠性。

問題是,這兩個概念是否存在相交的地方呢?

當這兩種技術同時應用時,將會實現什麼呢?

簡單地說,區塊鏈如何顛覆數據科學?

要回答這些問題,就有必要更好地理解區塊鏈和數據科學之間的區別。

什麼是區塊鏈?

區塊鏈基本上就是一種不可信的賬本,它記錄經濟交易,這樣就不會被操縱了。這項技術之所以引人注目,是因爲人們對比特幣和加密貨幣普遍感興趣,但此後人們發現,區塊鏈不僅與加密貨幣交易相關,而且與任何有價值的交易都相關。瞭解這種新興技術的能力後,開發人員和技術愛好者已經開始爲區塊鏈設計一個又一個用例。

區塊鏈開發人員很搶手

在過去幾年中,區塊鏈開發人員越來越搶手,就像開發不同區塊鏈應用的項目一樣。據來自 UpWork 等自由職業平臺的報告,他們將區塊鏈技能保留爲最需要的技能。同樣地,法律研究等其他領域的專業人士如果擁有區塊鏈技能,或者至少對區塊鏈技術有所瞭解,就會被認爲有很大的競爭優勢。

什麼是數據科學?

數據科學尋求從結構化和非結構化數據中提取知識和見解。該領域包括統計、數據分析、機器學習和其他用於理解和分析使用數據的實際過程的高級方法。

用經濟學的術語來說,數據經常被描述爲新的石油,這就是爲什麼包括著名的 GAFA(即 Google、Amazon、Facebook 和 Apple)在內的領先企業控制着大量數據的原因。在互聯網引擎協議、數字廣告和推薦服務中可以看到數據科學的一些常見應用。數據分析是數據科學的一個重要方面,人們發現,數據分析在醫療行業中,與跟蹤患者的治療和設備流程相關;數據分析在旅行遊戲中能夠提高消費者的體驗;數據分析還能用於能源管理以及許多其他部門。

數據科學家也很搶手

企業對數據科學家也有一種似乎永無止境的需求,因爲他們可以提供更多關於數據的洞察力,幫助解決更多的問題。當考慮大數據時,這一點尤爲明顯,大數據是數據科學的一個高級方面,處理的是傳統數據處理方法無法處理的海量數據。

區塊鏈與數據科學的關係

與金融技術、醫療保健和供應鏈等區塊鏈現在非常熟悉的領域不同,區塊鏈技術在數據科學方面並沒有得到廣泛的探索。對某些人來說,這些概念之前的關係就算存在,但也是不清晰的。

首先,區塊鏈和數據科學都處理數據:數據科學分析數據以獲得可操作的見解,而區塊鏈則記錄和驗證數據。區塊鏈和數據科學都利用爲管理與各種數據段交互而創建的算法。你很快就會注意到的一個共同主題是:“數據科學用於預測;區塊鏈用於數據完整性。”

區塊鏈對數據的影響

與任何技術進步一樣,數據科學也有其自身的挑戰和侷限性,這些挑戰和侷限性一旦得到解決,將會釋放其全部能力。數據科學麪臨的一些主要挑戰包括無法訪問的數據、隱私問題和髒數據。

對髒數據(或錯誤信息)的控制是區塊鏈技術能夠在很大程度上對數據科學產生積極影響的一個領域。據 2017 年對 1.6 萬名數據專業人士的調查,包括重複或錯誤數據在內的髒數據被認爲是數據科學麪臨的最大挑戰。通過分散共識算法和密碼學,區塊鏈對數據進行驗證,由於需要巨大的算力,使得數據幾乎不可能被操縱。

同樣,區塊鏈技術通過其去中心化系統確保了數據的安全性和隱私性。大多數數據都存儲在集中式服務器上,這些服務器通常是網絡攻擊者的目標;幾份關於駭客攻擊和安全漏洞的報告顯示了這種威脅的程度。另一方面,區塊鏈將數據控制權恢復給生成數據的個人,使得網絡犯罪分子大規模訪問和操縱數據成爲一項艱鉅的任務。

區塊鏈如何幫助大數據?

Janexter 的 Maria Weinberger 說,如果數量很大,那麼區塊鏈就是質量。這是基於這樣的理解:區塊鏈專注於驗證數據,而數據科學或大數據設計從大量數據中進行預測。

區塊鏈帶來了一種全新的數據管理和操作方式:不再是從集中所有數據的中心的視角來看,而是從去中心化的方式來看,數據可以直接在各個設備的邊緣上進行分析。區塊鏈集成了其他先進技術,如雲解決方案、人工智能和物聯網。

此外,通過區塊鏈技術生成的經過驗證的數據是結構化的、完整的,而且正如我們之前提到的那樣,它是不可變的。區塊鏈生成數據成爲大數據推動力的另一個重要領域是數據完整性,因爲區塊鏈通過其鏈接鏈確定了數據的來源。

大數據中的 5 個區塊鏈用例

總的來說,區塊鏈數據至少有五種具體方式可以幫助數據科學家。

  • 確保信任 (數據完整性)

記錄在區塊鏈上的數據是可信的,因爲它們必須經過一個確保質量的驗證過程。它還提供了透明度,因爲可以跟蹤在區塊鏈網絡上發生的活動和事務。

去年,Lenovo 展示了區塊鏈技術的這一用例:檢測欺詐性文檔和表格。PC 巨頭使用區塊鏈技術來驗證用數字簽名編碼的物理文檔。數字簽名由計算機處理,文檔的真實性通過區塊鏈記錄進行驗證。

大多數情況下,當關於數據塊的起源和交互的詳細信息存儲在區塊鏈中,並在對其進行操作之前自動驗證(或驗證)時,可以確保數據的完整性。

  • 防止惡意活動

因爲區塊鏈使用共識算法來驗證事務,因此單個單元不可能對數據網絡構成威脅。開始出現異常行爲的節點(或單元)可以很容易被識別並從網絡中剔除。

由於網絡是如此分佈式的,因此一方幾乎不可能產生足夠的算力來更改驗證標準並允許系統中出現不需要的數據。要更改區塊鏈規則,就必須將大多數節點彙集在一起以創建共識。這可不是一個駭客憑一己之力就能做到的事。

  • 預測 (預測分析)

和其他類型的數據一樣,區塊鏈可以通過進行分析來揭示對行爲、趨勢的有價值的見解,因此可以用來預測未來的結果。更重要的是,區塊鏈提供從個人或個人設備手機的結構化數據。

在預測分析中,數據科學家基於大量數據,來準確地確定社交事件的結果,如客戶偏好、客戶終身價值、動態價格與企業相關的流失率等。然而,這並不侷限於商業洞察力,因爲幾乎任何事件都可以通過正確的數據分析來預測,無論是社會情緒還是投資指標。

由於區塊鏈的分佈式特性以及通過它可獲得的巨大算力,即使在較小的組織中,數據科學家也可以承擔廣泛的預測分析任務。這些數據科學家可以利用連接在區塊鏈網絡上的數千臺計算機的算力作爲基於雲端的服務,以一種其他方式無法實現的規模來分析社會結果。

  • 實時數據分析

正如在金融和支付系統中所展示的那樣,區塊鏈也支持實時跨境交易。幾家銀行和金融科技創新公司現在正在探索區塊鏈,因爲它能提供快速、實時的鉅額結算,而不受地域限制。

同樣地,需要對大規模數據進行實時分析的組織也可以啓用支持區塊鏈的系統來實現。通過區塊鏈,銀行和其他組織可以實時觀察數據的變化,從而能夠快速作出決策,無論是阻止可疑交易還是跟蹤異常活動。

  • 管理數據共享

在這點上,從數據研究中獲得的數據可以存儲在區塊鏈網絡中。項目團隊不會重複其他團隊已經執行的數據分析,也不會錯誤地重複使用已經使用過的數據。此外,區塊鏈平臺可以幫助數據科學家通過交易存儲在平臺上的分析結果將他們的工作貨幣化。

結論

正如人們所指出的,區塊鏈還處於萌芽階段,但由於區塊鏈技術在短時間內收到了大肆炒作,它可能不會出現在人們眼前了。公衆預計,隨着技術的成熟和更多的創新,將會發現和探索更爲具體的用例,對數據科學領域而言,將會從中獲益。

話雖這麼說,但它在數據科學的影響,特別是需要處理大量數據的大數據,也提出了一些挑戰。其中一個擔憂就是,在這方面的區塊鏈應用將會非常昂貴。這是因爲與傳統方法相比,區塊鏈上的數據存儲成本很高。與大數據和其他數據分析任務的每秒收集的大量數據相比,數據塊處理的數據相對較少。

區塊鏈將如何發展到能夠解決這些問題並繼續顛覆數據科學領域,這將是特別有趣的事情,因爲正如我們所看到的,區塊鏈技術有巨大的潛力,可以改變我們管理和使用數據的方式。

原文鏈接:
https://www.linkedin.com/pulse/blockchain-data-science-what-achieved-when-two-applied-salih-sarikaya/

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章