LikeLib：機器學習如何分析解決“去匿名化”這個大難題

標註或者去匿名化區塊鏈的思路可以讓區塊鏈分析更好地生態中已知參與者的行爲模式和特徵。直覺上我們可以考慮創建一些規則來分析區塊鏈生態系統中的不同成員，例如：

“如果一個地址持有大量比特幣地址並且一次執行100個交易，那麼這是一個交易所地址……”

雖然很有吸引力，但是基於規則的方法將很快失效，無法再提供有用的信息。下面列出了部分原因：

1. 預置知識的完整性：基於規則的分類會假定我們對於如何識別區塊鏈生態中的不同參與者有足夠的知識。這顯然是不正確的假設。

2. 持續的變化：區塊鏈解決方案的架構一直都在演變，這對任何嵌入的規則而言都是挑戰。

3. 特徵屬性的數量：創建一條有兩三個參數的規則很簡單，但是試圖創建一條有幾十個甚至上百個參數的規則就沒那麼簡單了。要識別出像交易所或OTC櫃檯這樣的地址需要大量的特徵。

因此我們不能使用預置的規則，我們需要一種可以從區塊鏈數據集中學習模式的機制來自動推斷出有意義的規則讓我們可以標註相關的參與方。從概念上來說，這是一個經典的機器學習問題。

從機器學習的觀點，我們應該從兩個主要途徑來考慮應對去匿名化的挑戰：

· 無監督學習：無監督學習聚焦於學習指定數據集中存在的模式並識別相關分組。在區塊鏈數據集的上下文中，可以使用無監督學習模型基於地址的特徵將其匹配到不同的分組中並對這些分組進行標註。

· 監督學習：監督學習方法可以利用已有的知識來學習指定數據集中的新的特性。在區塊鏈上下文中，可以使用監督學習方法基於已有的交易所地址數據集訓練一個模型來識別出新的交易所地址。

去匿名化或者給區塊鏈數據集打標籤很少是隻用監督學習或者只用非監督學習，更多的情況下需要兩種方法的結合。機器學習模型可以有效地學習區塊鏈生態系統中特定參與者的特徵，並利用這些特徵來理解其行爲。

在使用區塊鏈ETL工具將區塊鏈原始數據加載到數據庫或大數據分析平臺後，將標註層引入區塊鏈數據集是進行更有價值的區塊鏈數據分析的一個關鍵挑戰。

這些標籤提供了更好的上下文環境，也讓區塊鏈分析模型具有更好的可解讀性。不過儘管我們有機器學習這樣強大的工具，去匿名性依然是分析理解區塊鏈生態系統的道路上一個不可忽視的重大路障。

發表評論

所有評論

還沒有人評論，想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.