使用自動編碼器將數據匿名化，別再讓數據泄露你的隱私

原創

2020-12-25 14:38

{"type":"doc","content":[{"type":"blockquote","content":[{"type":"paragraph","attrs":{"indent":0,"number":0,"align":null,"origin":null},"content":[{"type":"text","text":"本文最初發表於 Towards Data Science 博客，經原作者 Shuyi Yang 授權，InfoQ 中文站翻譯並分享。"}]}]},{"type":"paragraph","attrs":{"indent":0,"number":0,"align":null,"origin":null}},{"type":"paragraph","attrs":{"indent":0,"number":0,"align":null,"origin":null},"content":[{"type":"text","text":"在這篇文章中，我們將學習如何使用自編碼器（autoencoder，一種特殊的人工神經網絡）來實現數據匿名化。通過保持原始數據的保密性，這種方法提取的數據的潛在表示可以在下游機器學習預測任務中使用，而不會導致性能顯著降低。"}]},{"type":"paragraph","attrs":{"indent":0,"number":0,"align":null,"origin":null}},{"type":"paragraph","attrs":{"indent":0,"number":0,"align":null,"origin":null},"content":[{"type":"text","text":"本文分爲兩部分。在第一部分，我將通過例子介紹一個自編碼器的結構。在第二部分，我將展示如何使用自編碼器對錶格數據進行編碼，以便將其匿名化，並將其用於其他機器學習任務，同時又能保護隱私。"}]},{"type":"heading","attrs":{"align":null,"level":2},"content":[{"type":"text","text":"自編碼器"}]},{"type":"paragraph","attrs":{"indent":0,"number":0,"align":null,"origin":null}},{"type":"paragraph","attrs":{"indent":0,"number":0,"align":null,"origin":null},"content":[{"type":"link","attrs":{"href":"https:\/\/en.wikipedia.org\/wiki\/Autoencoder","title":"","type":null},"content":[{"type":"text","text":"自編碼器"}]},{"type":"text","text":"是一種特殊的神經網絡，它由兩部分組成：編碼器和解碼器。編碼器部分接收輸入數據並將其轉換爲潛在表示；而解碼器部分嘗試重構潛在表示的輸入數據。損失是輸入數據和重構數據之間的距離。"}]},{"type":"image","attrs":{"src":"https:\/\/static001.infoq.cn\/resource\/image\/f2\/0d\/f2f846ca852641f455efbce267a82e0d.jpg","alt":null,"title":"","style":[{"key":"width","value":"75%"},{"key":"bordertype","value":"none"}],"href":"","fromPaste":false,"pastePass":false}},{"type":"paragraph","attrs":{"indent":0,"number":0,"align":null,"origin":null}},{"type":"paragraph","attrs":{"indent":0,"number":0,"align":null,"origin":null},"content":[{"type":"text","text":"經過訓練的自編碼器能夠提供一個良好的潛在表示。這種表示方式與原始數據非常不同，但是它包含了輸入層中的所有信息。"}]},{"type":"paragraph","attrs":{"indent":0,"number":0,"align":null,"origin":null}},{"type":"paragraph","attrs":{"indent":0,"number":0,"align":null,"origin":null},"content":[{"type":"text","text":"爲了說明這一點，讓我們嘗試在一個著名的公共數據集 "},{"type":"link","attrs":{"href":"https:\/\/en.wikipedia.org\/wiki\/MNIST_database","title":"","type":null},"content":[{"type":"text","text":"MNIST"}]},{"type":"text","text":" 上運行一個自編碼器。"}]},{"type":"paragraph","attrs":{"indent":0,"number":0,"align":null,"origin":null}},{"type":"paragraph","attrs":{"indent":0,"number":0,"align":null,"origin":null},"content":[{"type":"text","text":"讓我們爲本教程導入一些包。"}]},{"type":"paragraph","attrs":{"indent":0,"number":0,"align":null,"origin":null}},{"type":"codeblock","attrs":{"lang":"text"},"content":[{"type":"text","text":"from pandas import read_csv, set_option, get_dummies, DataFrame\nfrom sklearn.preprocessing import MinMaxScaler\nfrom sklearn.model_selection import train_test_split\nfrom sklearn.ensemble import RandomForestClassifier\nfrom sklearn.model_selection import cross_validate\nfrom sklearn.inspection import permutation_importance\nfrom numpy import mean, max, prod, array, hstack\nfrom numpy.random import choice\nfrom matplotlib.pyplot import barh, yticks, ylabel, xlabel, title, show, scatter, cm, figure, imshow\nfrom tensorflow.keras.layers import Input, Dense, Dropout, Activation, BatchNormalization\nfrom tensorflow.keras import Model\nfrom tensorflow.keras.datasets import mnist\nfrom tensorflow.keras.callbacks import EarlyStopping\nfrom tensorflow.keras.utils import plot_model\nfrom tqdm import tqdm"}]},{"type":"paragraph","attrs":{"indent":0,"number":0,"align":null,"origin":null}},{"type":"paragraph","attrs":{"indent":0,"number":0,"align":null,"origin":null},"content":[{"type":"text","text":"我們將構建和訓練不同的自編碼器，因此，爲了這個目的，讓我們來定義一個函數。"}]},{"type":"paragraph","attrs":{"indent":0,"number":0,"align":null,"origin":null}},{"type":"codeblock","attrs":{"lang":"text"},"content":[{"type":"text","text":"def build_autoencoder(dim_input, dim_layer_1, dim_layer_2):\n \n input_layer = Input(shape=(dim_input,))\n x = Activation(\"relu\")(input_layer)\n x = Dense(dim_layer_1)(x)\n x = Activation(\"relu\")(x)\n bottleneck_layer = Dense(dim_layer_2)(x)\n x = Activation(\"relu\")(bottleneck_layer)\n x = Dense(dim_layer_1)(x)\n x = Activation(\"relu\")(x) \n output_layer = Dense(dim_input, activation='relu')(x)\n \n encoder = Model(input_layer, bottleneck_layer)\n autoencoder = Model(input_layer, output_layer)\n autoencoder.compile(optimizer='adam', loss='mse')\n \n return autoencoder, encoder"}]},{"type":"paragraph","attrs":{"indent":0,"number":0,"align":null,"origin":null}}]}

發表評論

所有評論

還沒有人評論，想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.

相關文章

文檔圖像大模型

隨着信息技術的快速發展，文檔處理已經成爲日常生活和工作中不可或缺的一部分。傳統的文檔處理方法往往需要人工參與，效率低下且易出錯。近年來，隨着深度學習技術的突破，文檔圖像大模型在智能文檔處理領域嶄露頭角，爲提升文檔處理性能提供了新的解決方案。

2024-04-18 11:29:52

裁員了！別錯過2024年大數據工程師必備的10項技能

在當今快速發展的世界中，數據被視爲新的石油。隨着對數據驅動洞察的日益依賴，大數據工程師的角色比以往任何時候都更爲關鍵。這些專業人員在管理和優化組織內的數據操作中扮演着至關重要的角色。在本文中，我們將探索2024年大數據工程師必須具備的十

2024-04-16 11:00:53

GaussDB(DWS)基於Flink的實時數倉構建

本文分享自華爲雲社區《GaussDB(DWS)基於Flink的實時數倉構建》，作者：胡辣湯。大數據時代，廠商對實時數據分析的訴求越來越強烈，數據分析時效從T+1時效趨向於T+0時效，爲了給客戶提供極速分析查詢能力，華爲雲數倉GaussDB

2024-04-18 10:32:57

五一假期暢遊指南：Python技術構建的熱門景點分析系統解讀

導言五一假期即將到來，作爲一名熱愛旅遊的技術達人，我總是希望能夠通過技術手段更好地規劃我的旅行路線。在這篇文章中，我將向大家介紹一款基於Python技術的熱門景點分析系統，幫助您在五一假期中游玩得更加盡興！ 1. 系統概述熱門景點

2024-04-16 23:25:46

還在擔心報表不好做？不用怕，試試這個方法（四）

系列文章：《還在擔心報表不好做？不用怕，試試這個方法》（一）《還在擔心報表不好做？不用怕，試試這個方法》（二）《還在擔心報表不好做？不用怕，試試這個方法》（三）概要在上一篇文章《還在擔心報表不好做？不用怕，試試這個方法》（三）中，

2024-04-16 10:23:03

MaxCompute 近實時增全量處理一體化新架構和使用場景介紹

隨着當前數據處理業務場景日趨複雜，對於大數據處理平臺基礎架構的能力要求也越來越高，既要求數據湖的大存儲能力，也要求具備海量數據高效批處理能力，同時還可能對延時敏感的近實時鏈路有強需求，本文主要介紹基於 MaxCompute 的離線近實時一體

2024-04-15 23:41:52

普元信息顧偉：用更簡單的方式來建設數據中臺

近日，普元信息與鏡舟科技聯合舉辦“數據中臺新範式”雲端峯會，深入解析湖倉一體、批流一體、治理與運營一體的數據中臺新範式特徵，闡述以一站式聯合方案賦能企業提質增效的實踐經驗。普元信息數智研究院院長顧偉發表主旨演講《基於湖倉一體，構建開發

2024-04-12 11:43:03

軟件測試從自動化到智能化，大模型開始加入

隨着科技的飛速發展，軟件行業也在不斷地演進和創新。作爲軟件行業的關鍵環節之一，軟件測試行業也在經歷着前所未有的變革。從最初的手動測試，到自動化測試，再到如今的智能化測試，軟件測試行業正在經歷一場深刻的技術革命。在這場革命中，Testin雲測

2024-04-19 00:53:25

文心大模型ERNIE-Tiny：輕量化技術的全面解讀

隨着人工智能技術的日益成熟，大模型成爲了衆多領域的研究熱點。大模型通過龐大的數據量和複雜的網絡結構，實現了對數據的深度挖掘和高效處理。然而，大模型的龐大體積和高計算成本也限制了其在一些實際場景中的應用。爲了解決這一問題，文心大模型ERNIE

2024-04-18 11:29:53

王海峯：百度 500 萬 AI 人才培養目標已提前達成

4 月 16 日，以“創造未來”爲主題的 Create 2024 百度 AI 開發者大會在深圳國際會展中心成功舉辦。百度首席技術官王海峯以“技術築基，星河璀璨”爲題，發表演講，解讀了智能體、代碼、多模型等多項文心大模型的關鍵技術和最新進展。

2024-04-17 23:41:11

提高 RAG 應用準確度，時下流行的 Reranker 瞭解一下？

檢索增強生成（RAG）是一種新興的 AI 技術棧，通過爲大型語言模型（LLM）提供額外的“最新知識”來增強其能力。基本的 RAG 應用包括四個關鍵技術組成部分： Embedding 模型：用於將外部文檔和用戶查詢轉換成 Embeddi

2024-04-17 21:20:19

從零開始學習大模型

隨着人工智能技術的快速發展，大模型已成爲許多領域的熱門話題。然而，大模型的創建並不是一件容易的事情。在本文中，我們將從零開始學習如何創建一個大模型，幫助讀者掌握大模型的創建過程。一、數據收集創建大模型的首要任務是收集數據。數據是大模型的

2024-04-16 11:29:26

倒計時4天！百度Create AI開發者大會“大模型與深度學習技術”論壇亮點搶鮮看！

作爲人工智能的核心基礎技術，深度學習具有很強的通用性，大模型技術在深度學習的基礎上，通過構建更加龐大神經網絡模型和應用transformer等更加領先的算法，使模型的處理能力產生質的飛躍。飛槳（PaddlePaddle）以百度多年的深度學習

2024-04-12 21:33:07

智能Java開發工具IntelliJ IDEA v2024.1震撼發佈——讓開發工作更簡單！

IntelliJ IDEA，是java編程語言開發的集成環境。IntelliJ在業界被公認爲最好的java開發工具，尤其在智能代碼助手、代碼自動提示、重構、JavaEE支持、各類版本工具(git、svn等)、JUnit、CVS整合、代碼分析

2024-04-12 11:33:56

深度解析大模型推理框架：原理、應用與實踐

在當今數據驅動的時代，大模型推理框架已經成爲人工智能領域的重要支柱。本文將通過簡明扼要、清晰易懂的方式，帶領讀者深入瞭解大模型推理框架的原理、應用領域和實踐經驗，幫助讀者更好地掌握這一技術，並在實際工作中發揮其價值。一、大模型推理框架簡介

2024-04-11 23:28:49

24小時熱門文章

最新文章

最新評論文章