機器學習與網絡安全（三）線性代數

現在的人工智能完全由數據來驅動，我們所見到的數據，比方說一張圖片有三個通道，分爲R（紅）、G（綠）、B（藍），每個通道是一個圖層，相當於有三張圖層，比如每一張圖片是5050像素，5050*3就是整個數據的大小。這種數據在人工智能使用時，會被變成一個矩陣，相當於有一個50行50列高度3的矩陣，矩陣裏面每一個小單元是一個數字，這個數字就是像素。從0到255反映顏色的色階從少到多，三通道反映了點的顏色從而繪製了整個畫面，這樣的數據我們把它叫做原數據，把原數據送進我們的人工智能系統，學習完特徵後，把結果讀出來，“結果”其實是一個概率。

比如現在的任務是畫面裏有一隻貓畫，想要讓電腦去認一下。讓電腦知道這是隻貓，他通過學習以後再把圖片給到電腦，讓電腦去認，會得到一個概率。如果是貓，它可能概率是93%，如果是狗，可能概率就是6%。其他概率是1%，最後認得出來是貓。我們可以看到，基本所有的人工智能問題都會涉及到一個決策性的東西即概率。應用方面就會很多，比方說我們在醫學造影的時候會讓你區分一張X光片，最後得到結果是腫瘤是惡性還是非惡性，以及我們的自動駕駛的話，比如前面在視頻中進入了一隻貓，或者進入了一個老人，系統會區分這個老人是否會被我撞到，或者是前面到底是一個什麼東西、路線是否正確，前面是否有斑馬線紅綠燈這些，最後所有的結果會集中到一個概率上，包括我們對自然語言的處理也是一樣的，一句話讀出來可能是個什麼意思褒義或貶義。又或一些影評系統去讀大量的影評，讓人工智能的系統去學習，學習完以後，我就從豆瓣的影評之類的，我隨便輸入影評，讓人工智能去讀一下他最後一個結果good或bad類人的判斷，這就是人工智能爲我們帶來的比較好的應用範圍。

人工智能與信息安全

分析IP地址被攻擊的規律性、APP日誌數據等中間件的告警、惡意代碼等等通過一定的方式把它們全部轉換成數字，這是數據科學的第一步要求。

接下來按照一定的標籤把它們聚類，不同的攻擊者的危害性不同，好一點的安全設備可以根據告警的特徵來告訴我們這可能是哪一個工具，那麼有一些高級的黑客他是用自己寫的工具，或者是用自己編的這種腳本來攻擊，系統檢測不到他具體使用哪種工具哪個攻擊方向。在不同的攻擊行爲中，我們有兩兩種辦法可以將它區分出來，一種是我們找專家分析，專家有限我們只能把這個任務交給機器來做。現在也有一些比較好一點的IPS系統IDS系統可以有效分類。

線性代數中會有一些基本的計算單元，1個數2.5這就是一個計算單元，我們稱它爲標量；一列數，2.5、3.7、4.2我們把它稱爲向量；再多一點，好多列數我們把它叫做矩陣；超過二維的矩陣我們把它稱爲張量。

三維是指360度全景，四維是時間方面，能夠掌握四維就能控制時間，顯然我們人類是沒有辦法控制時間的，五維指空間，能掌握五維就能夠在任意的空間穿梭（平行宇宙），目前人類是沒法掌握的，聽起來很玄幻，但在信息論裏是有描述的，我們沒辦法穿越時間穿越空間，但是超聲波、電波或能量是可以穿越的，比如數學界的傅里葉變換。

現在人工智能的圖像識別這一塊是非常發達的，可以把任何的數據繪製成圖片，人工智能學習到裏面的特徵可以把特徵提取出來，再跟現有的數據去比較，他可能認爲75%的可能性是一個僵屍網絡控制的主機。

矩陣

分配律

對角矩陣

線性相關

這個標籤是已知的，A是已知的。

範數

指一個向量的距離，可以衡量一個向量的大小。

我們從最小的開始羅列，L1範數就是P等於1，L1範數通常用來區分零元素以及非常接近於零的元素，它是用來做這個事情的。

L2範數叫歐幾里得範數，表示從原點出發到向量X確定的點的歐幾里得距離，也我們常簡稱爲歐式距離，在一些算法中會有這個東西，歐式距離它就是類似於他會衡量一個比較確定的距離，那就不像是說L1它是衡量一個你是不是零，有數據支撐的距離。

特徵分解我們生活中的所有的一切深度學習都可以分解爲一個最小的模塊不斷地疊加，疊加成一個最小的模塊，再疊加成一個比較大的模塊，然後再用大的模塊疊加成一個更大的模塊，然後再用大的模塊再疊加出來。生活中大自然中是存在這樣的規律的，包括我們的聲音，聲音也是由聲音信息來進行疊加的，聲紋數據是機器學習中比較重要的數據，以及包括我們的指紋、DNA不斷的重複的疊加，不同的信息序列的疊加，最後就變成了我們大自然中生命的表現方式，可疊加性是大自然存在的一個現象。我們把基本單位稱爲特徵向量，在我們的矩陣裏面，可以分解爲一組特徵向量和特徵值。向量指的是方向，特徵值指的是這個方向需要走多少。

如果你能找到這個特徵向量，那麼你就可以提取出這樣的特徵值，特徵值就表示像A這一類的矩陣。