機器學習與網絡安全（一）

深度學習技術目前是人工智能這個領域裏面最核心的一門技術。

首先就是說要從人工智能來談起，人工智能它是研究開發用於模擬延伸和擴展人類智能的理論方法技術以及應用系統的一門新的技術科學。人工智能好早以前就有的，侷限於當時的技術，還有一些理論方法都不夠成熟，所不能達到人們想要的一些要求。目前來說，人工智能的突破僅僅體現在應用於某些個別的領域，包括以下幾種類型：

人工智能要分爲“人工”跟“智能”這兩個詞語來談。人工就是說這個東西是由人來創造的，不是我們自然界中本本身所具有的一類東西。人類也是一種智能體，主要體現在以下這幾個方面：

   首先我們可以感知，我們可以理解跟我們不一樣的事物，你可以感知到別人、可以感覺到別的動物、可以感覺到外界的環境，我們還有視覺可以接收光的反射物（光反射的東西），在我們的視覺中就會形成一定的顏色；我們還有聽覺就可以接受一定程度的聲波信號（像蝙蝠它可以接收超聲波，那麼人類是不能接受的，就說我們人類能接受的聽覺的信號的寬幅平，這個頻幅是有限制的）；我們還能夠理解，這也是人類的一個最大的特徵，我們的理解力是強於低等動物的。比如說我們對於特徵以及關鍵點的提取，讀完一篇文章，你能很快知道這篇文章主要講了什麼，你看見一幅畫，別人一問你這幅畫是畫什麼，你可以說出來，比如這幅畫是畫了一座山，那麼我們還有一定的關聯能力，就是類同事物的搜尋能力，什麼叫類同事物？就是說當你看見一個一隻蝴蝶，一隻很漂亮的蝴蝶，你的蝴蝶谷看見一隻蝴蝶，你就有能力去搜尋其它長的類似的蝴蝶，以及有能力去辨認其它長的不一樣的蝴蝶，這是對於某種低等動物來說它們是做不到的。

   我們還可以進行歸類，當你搜尋完很多類同事物以後，你的經驗會以記憶的方式累積在你的大腦中。比如你讀書，有些人它是讀的書越多，它讀書的能力越強，它讀得越快。其實說它在讀書的不斷的訓練中，它對文字間的特徵關鍵點的提取，對書的理解能力關聯能力也上升了。比如說這一本是福爾摩斯一個偵探，那一本又換成了另一部偵探小說，這個時候它讀另一本的時候就很快，但是如果你老師給你不同類型的書來讀，對你的是閱讀是有橫向發展的成長的。

然後我們還有一定的抽象能力，即經驗的總結概括能力。

   當我們讀到一句話的時候，會把關鍵點抽出來，同樣人工智能也要做到這樣的能力，這是非常重要的。短時間內讓你看一看一篇連環畫，看完以後可能那些比較喜歡的長得好看的角色的樣貌你是記得住的，打醬油角色的只出來一幀畫面的可能你很快就會忘掉了。一見鍾情的你就會非常的對她們有印象，這個就很容易把它們的特徵、輪廓、眼睛眉毛等臉部特徵身材樣貌這些特徵抽象出來。

   我們還可以表達，前面所列的這些東西以及對最後你抽象出來的東西我們會輸出，但是這個輸出就跟輸入是不一樣的，它們也是一樣的也是不一樣的。爲什麼這樣說？在比如說你看到一個明星范冰冰，你在雜誌上看到它你去跟別人說，我在雜誌上看到范冰冰了，她長什麼樣，你說出來的這一個和你看到的那一個它們一樣是范冰冰，但是它們又不一樣，因爲你說出來的這一個和你看到的那一個在信息表達上它們絕對是不一樣的東西，我們人們不可能把同類的東西就原封不動的可以表達出來，這就猶如達芬奇它是不能夠畫出兩個一樣的雞蛋，這是一樣的道理，它在畫雞蛋的時候或自己親手構造的雞蛋，它再來一遍，這個都是不可能的。這個也是人類的一種能力。然而對於我們不同的個體，這些能力都是不太相同的。例如有的警察它可能辦案的時候，它在證據鏈的搜索上就非常拿手，這說明它的關聯能力很強，跟證據鏈有關的跟這一起案件有關的事情，它都能夠很好地關聯起來。然後有一些學霸就說什麼的，像理科學霸它們的理解能力會很強，然後它們的表達能力也會很強，因爲有的人可能不同意，說那些理科男可能都不會表達怎麼樣，它是不是表達這個意思？就是說首先它們理解能力很強，是爲什麼？因爲對吧？你對着一個數學公式或者物理公式或者一個定義，你也在看，它也在看，那麼爲什麼人家學霸考試就考的會比較好？因爲它能把數學公式或者是這些例題裏面的特徵提取出來，很快的提取出來，有可能它自己都不知道。

   比如說當學霸面對題海戰術的時候，它就從很多的題裏面很容易歸類了，這些題是屬於哪些，那些題是屬於哪些。這不是它的歸類能力很強，而是它的理解能力很強，它很容易把特徵找出來。然而對於我們來說，題海戰術它就是一片海有1萬道題，那就是1萬道題，可能對學習好的同學那些學霸來說，那1萬道題它不是1萬的，它可能就是10道。因爲可能它有一千到根本就是一樣的東西，用的是一樣的方法，就是它們很能夠總結之類的東西，把理解的東西只要提取出來，特徵一提取出來，標籤就打個標籤一插。 這個時候這個山頭你誰看過去都知道那是什麼。這個就好理解了。它們就是插標籤的能力會很強。它們在看到自己插過的標籤的時候，很容易從這一個將它的定義再反向解答出來，這是表達能力很強的體現，在我們人工智能裏也有，我們要提高智能人工智能的表達能力生成對抗模型，同時來學習讓智能體讓我們編的代碼，同時來學習一些圖圖中的一些事務，然後學習做一些類似的圖同時，要理解這個圖中的特徵，然後還要用自己的方法將這個特徵表達到自己所畫的新的圖中。這個就好像學霸要理解那些例題中的原理，然後再把這些原理應用在自己要做的新的題目中。這個是表達能力很強。然後像有些文科學霸它們的歸類能力很強，它們的記憶力和理解能力很好，因爲有些歷史事件要有自己的理解，由於歸類能力強它們很容易就把事物進行分類，甚至是金字塔型分類。在自己的大腦中可能不善於學習的同學，就本來就是三篇課文，三篇歷史課文，你分類出來，還是那三篇，就先等於沒分一樣。然後這一方面的例子還有很多，大家可以在課外再擴展一下，也可以從生活中找一找，看看你在面對不同的事物的時候，除了這幾種感知聽視覺聽覺理解關聯歸類抽象表達這些以外，還有哪些能力是你所具備的？人工智能下一步可能要研究的就是這些能力，大家可以提前來佔領這一片區域。

人工智能的發展歷程
1、“人工”智能階段

條件性智能反應，人類目的驅使，技術單一的假智能。

像以前我們玩電腦遊戲的時候，CS反恐精英有好多BOT機器人，這種可以稱爲是一種人工智能，它能像個人一樣和你玩，但是你玩的多了，你就會發現它們行動是很有規律的。包括一些一切的遊戲機都是這樣的，它們的行動往往是很有規律的。而且行動不規律的那些也是通過一些隨機算法，比如說時間算法，我們往往是結要結合時間的，也是一種假隨機，就是說在現在的隨機算法中來說，沒有真正的隨機，有的只能是和當前的時間甚至和當前產生的一些東西所結合起來的。因爲電腦是沒有辦法做到真正的像人一樣，我腦子裏隨便想一個數字55，這就是我突然想到的，我沒有任何原因，沒有任何邏輯。計算機現在是做不到這一點的，這種是條件性智能反應。像反恐精英里面的BOT，它是根據你的條件，你的BOT可以選難度簡單普通困難，如果是困難的話，看到你馬上鼠標那個座標可以飄到你身上去，然後開槍。當自己生命值低於多少的時候，它可能會選擇迴避，周圍那些迴避點都是提前計算好的。這些就是一個條件驅使的智能反應，你在碰到真正的人的時候，發現你還是打不過。

2、統計概率學階段

數據與人類經驗所驅使，利用數據來擬合函數，最終獲得從數據中判斷得出的概率。

比如我們預測股票價格，現在有很多種方法了，早先的時候，它就是通過一個迴歸的算法來進行的，看看之前的數據，用一定的算法來計算一下之前的數據。比如說一支股票前五年的開盤價是怎麼樣，然後我們來預估一下，通過一個數據來預估一下我們之後的開盤價是怎麼樣，它是以統計學爲核心算法，大家也可以看一下統計學。

3、自主學習階段

完全的數據趨勢，使智能體自主學習沒自己尋找特徵，實現基礎的人機互動。

就是說這個裏面就沒有人類經驗了，統計學那個階段還是需要一定人類經驗的，比如你要預測股票的話，你得有一個預測股票的大師再配合你的系統，通過大師的和工程師要跟人家業務的代表來交流，根據業務代表來慢慢調整算法，調整你的各種參數來和數據，最後讓數據的表現和你的計算機的表現貼近於很牛的那個人，這是當時統計概率學階段所達到的一個成果，現在自主學習階段就是完全是數據趨勢了。

最簡單的例子就是阿爾法狗（AlphaGo），谷歌並沒有聘請圍棋專家，通過一定的算法使智能體進行自主學習，計算量達到要求了。自主學習階段就是表現出我們的計算機可以自己尋找特徵來實現基礎的人機互動，就包括現在什麼百小度，還有什麼微軟小兵那些一系列的東西。

4、（未來推測）記憶結構化階段

數據驅使+場景驅使，從不同場景產生的不同數據中自動提取類同經驗，並自行規劃邏輯經驗存儲結構。

下一個階段可能會發展到由記憶結構化的一個階段。最早人機互動沒有上下文的連接性，你問問幾句話它就傻了，它就會忘掉至比如說問你同樣問有關一個問題的，你比如說鼠標好不好看，然後你知道這是哪買的嗎？可能第二句它就不知道了。你知道這個鼠標是哪買的嗎？當然這個鼠標我沒說出來，你是人的話你都懂，對吧？它就知道我指的就是這個鼠標，但是對於一開始的人機互動程序來說，它就認爲你這個裏面沒有出現和上一個裏面相關的詞彙，往往它給我們的表達就很牽強，但是在現在來說這個已經好多了。我們未來更會趨向於就是說把我們的記憶按照人腦的結構，或者是它們計算機自己的結構把它結構化。

對感知過搜尋過對話內容所產生的權重，把它按照記憶的結構化的形式來存儲，根據鞋想報電商網站女性喜歡愛買的東西這些。在未來可能就是說人工智能會發展爲數據驅動加場景驅動，就從不同場景產生的不同數據中自動提取類同的經驗，這個就把場景就歸類了，現在是隻有數據歸類場景，現在很少能做到有歸類的，並自行規劃邏輯經驗中的存儲結構。

這個結構不是人制定，不像一個結構化數據庫人來寫，那些數據庫可能人家發展到之後，自己來規劃自己的數據庫，按照類型把數據合理的存放進去。

5、（未來推測）智能神經聚合階段

   智能驅使，自由控制多神經網絡計算重疊進行，大規模神經網絡被聚合爲不同的體徵網絡，大量體徵網絡的不同表態形成基本的類人意識。谷歌Facebook那些大型的公司有TPO集羣能耗像就跟一個小型城市那麼大，圖像識別經驗可能直接導入進來，很多圖像就自動就可以識別、邊緣檢測等等。 這些東西都是由機器來自動完成，什麼樣的任務有怎麼樣的神經網絡來好，而且以後可能就是神經網絡反應都極快，比方說現在共享單車， 一個機器人看到共享單車，馬上要建立神經網絡，它要去想這個東西，它要去獲得這個東西，要分析共享單車的圖片邊緣檢測，它的二維碼檢測一下，這是一個什麼是哪家公司的，我應該用什麼APP來掃，？然後它還有神經網絡操縱它的手，只是一個預測，當然以後也不一定要往這個方向發展。大家也可以大膽的預測一下，根據前三個階段來預測一下，往後的階段可能十年二十年後，看看你是不是一個預言家。

人工智能應用場景

   根據用戶行爲看看用戶是註冊多久，每天多久會登錄一次，登陸頻繁，頻率是怎樣，登陸幾次以後會東西買東西會花多少錢，評價怎樣，你老是打差評，有退貨怎麼樣，都是可以分析得到的，還有就是推薦系統，你買了這個東西，給你推薦類似的，看着你的喜歡的，你老喜歡買那些稀奇古怪的鞋子，我就給你推薦一些更稀奇古怪的，還有就是導購系統，無人超市的機器人導購，還有一些就是系統後臺導購，像掃碼導購這些，那麼就可以智能的來判斷，判斷你的需求，然後告訴你應該買什麼東西。

還有導航場景，比如說現在有一些自動駕駛車、無人機，無人機現在還是好多無人機還是人在操作，只能說是真正的無人機，就是你告訴它我要比方說我要去海上給我拍一張照片回來，它自己就去了，給你拍完照片它自己回來了，並且它自己可以遵循無人機的，把那些經驗化裝成程序放在無人機裏，你無人機自動在飛的時候，再選擇路線避讓，這些它就自己會搞了。

還有地圖路徑規劃，比如百度地圖高德地圖；

還有空間路徑規劃，像現在那些掃地機器人。它在清掃一間屋子的時候，首先它根據攝像頭拍到的空間建模，根據這個房子的空間來規劃，儘量少走路全程掃完；

接下來是在醫療場景，就是說腫瘤識別，比方說是一張腫瘤大小顏色各種參數拿過來以後，可能要專家才能判斷，這是一個惡性的切。也可能專家看到這是一個良性的不用切用其它辦法。

醫院專家比較少但是病人比較多，病人都集中到那些醫院裏面也不合理，不如把那些專家的經驗傳遞給人工智能來判斷給腫瘤裏面照照X光或者罩什麼核磁共振之類的，你照片拿出來，你看人工智能一判斷這是一個惡性，這是一個良性，可能還比那些經驗沒有那麼豐富的大夫判斷得很準一些，這也是有可能的，也包括手術的選擇（醫學影像識別一樣的道理）。

   還有工業場景，比如大規模的3D打印，這個時候就需要深度學習介入，還有一些機械的工程機械臂。

生命科學場景，比如DNA的序列探索，這些序列太長了，針對一種病的DNA序列做一些監測等，現在慢慢發展，有深度學習來做這個事情，效率會越來越高。還有一些生命機能的探索，從DNA其它環境中，你比方說在地震災後救人的話，這個也是人工智能所能體現自己價值的一個地方。

還有日常生活場景，智能超市剛纔說過了，家庭機器人智能家電等。

藝術創造場景，智能作畫也在商場，很有做派得很有藝術家做派的人在那裏可以幫你幾分鐘幫你畫一幅畫油畫素描都有嗎？當然現在也差不多我蠻好用的，手機上也有，APP直接可以你自己把你的照片一拍，然後你想要什麼藝術效果你自己挑。它可以以像素級別來爲你生成，我們在photoshop上面也有，對你整幅畫面按照統一的比例，比如10%按照就這樣10%，比如說是透明特效，10%你就整幅畫面都是透明。但是你用人工智能來做一個透明的創作，或者你手裏端着一盆水，可能那盆水的盆就給你搞透明瞭。還有智能作曲也是，之前好像有人寫了一個聽歌的一個人工智能程序來，最後評論下來，反正有幾個歌手的歌是人工智能也覺得實在是難聽。

 然後還有影視製作，影視劇本身呈現在國外好多做美劇的在用，它們會先用人工智能生成第一版的影視劇的劇本，它們給這些說它們給人工智能提供的是文字形式的東西，就是什麼劇的描述來做一個什麼樣的劇，環境是怎麼樣子的，歷史設定是怎麼樣子的，我需要多少個人，主人公的性格是大概怎麼樣子的，它們這些作爲參數來提供給人工智能然後人工智能通過它自己閱讀了好多劇本以後，它從裏面吸取經驗，然後搞出一個新的和你這個比較相近的。還有虛擬人臉生成等。

   講了這麼多，都沒有跟信息安全掛鉤，那麼信息安全是不是就跟人工智能很難結合呢？其實信息安全老早就跟人工智能又結合了。比如密碼算法、驗證算法這些就用了我們機器學習裏面的好多算法，所以其實機器學習人工智能這塊先被應用到其它行業之前，就是最先應用到信息安全行業的。如說現在物聯網、嵌入式的信息安全。

信息安全的現狀大概分了這麼幾類：

攻擊場景如何復原現在是一個大問題，網絡安全上我們其實更需要的是快速的響應，由機器來代替人來響應，很多解決方案，就是說當然做的好的才行，好多都是做得不好的，做的好的就是快速響應，互聯網上有類似的攻擊行爲，IPS級識別的行爲，馬上就可以來防火牆阻攔或者至少自動告警，然後給它錄入一個就像是我們用戶行爲識別那樣的一個信用的一個級別。

當它再過來做一段事情比如它訪問了系統A以後，它又去訪問系統B，它都沒有成功的訪問，這個時候它的信用評級會越來越差，差到一定地步的時候它登陸任何的系統你都要彈驗證碼，甚至是要短信驗證碼，或者是用其它的方法直接隔離。

   一般現在都是搞很多複雜的機制你才能夠用，缺一樣不行，這個東西人家都說是短板效應，缺一樣也不行。現在說水桶原理有另一個方法，就是你把水桶有一塊板是最長的，然後你把水桶放平，然後最長那塊擺在最下面，這發現你也能接很多水。你還能放很多水，就不要放平，這樣你也能放很多水。

  服務器安全服務器運維人員會很清楚，安全人員很好管，一個是加固改配置，然後就打補丁，運維人員服務器管理者很頭疼，打補丁風風險大，不打風險也大。真正以智能化的形式來打補丁，讓人工智能來理解服務器的一些底層的組件影響服務器的一些東西，打補丁之後這些組件發生了哪些變化，讓智能體來反應。

 現在有公司把惡意惡意代碼、木馬的病毒等給那些人工智能深度學習來認但是往往那些變種了，你都不報警的拿過來深度學習照樣報警，現在是有英國有幾家有兩家在做這種事情。

  密碼安全，多少密碼才能讓你一生的賬戶足夠安全？比如說你一生可能很可能就不下500個，起碼各個大小的網站。你不可能天天帶個本，上街上帶個本去取錢也帶個本記着你的500個密碼，你在家裏上公司，你反正你包裏裝個本，記着你所有的密碼，這也不現實。 所以很多人都是基本上你如果真的是500個網站的話，可能頂多不會超過十個密碼，很多都是重複的，就很容易造成撞庫。搞安全的人們看待一個密碼最好就是隨機算法的密碼，從隨機的字符庫取個十位的密碼，可能前四位你從大寫庫取後三位，你從小寫庫中取三位，但這種也不切實際屬性，這種密碼不好記。

    深度學習的出現讓人類在人工智能訓練過程中的控制過程就逐漸減少了，像AlphaGo可能團隊就那十來個人，那就能搞出那麼大的創舉，你可能沒有深度學習的話，上幾百號人估計都搞不出來效果。現在深度學習出現以後，這個數據的主導地位慢慢佔據了，有數據了，人類就調參完了。

接下來還會跟大家分享什麼？

我們能給到大家的一些現在做的效果比較好的數據預測、圖像識別、語義識別這些都會給到大家，本課程這個東西我也會更新，可能有更好的東西出來了，我就會換更好的東西了，儘量給大家就是說把新的東西給到大家。你那是厲害的東西你也拿不出來，你說你拿出谷歌去年到今年研究的一個東西拿出來跟你講，這個不可能，人家都沒有泄密的東西，像之前Facebook不是說傳聞搞出了兩個機器人相互對話，然後對話除了只有機器人自己懂得語言，然後兩個機器人還聊得挺開心的。它們是把一些着重的語言，比如說機器人A想跟機器人B來罵自己的老闆，它就會說這boss它會重複很多的字，來強調這個單詞，老闆來強調這個東西，但是我們人可能就說，可能說的話就直接是加重語氣，可能看了半天人也看不懂它們在說啥。它們那邊機器人就在那裏聊，聊得有模有樣了，從這個程序的運行效果準確率各方面來看沒有偏離到太玄乎的東西，在機器認爲上下文關係還是OK的，只不過你看不懂而已。然後Facebook之後馬上叫停了這個項目，它們也害怕慢慢發展起來會有什麼問題，當然這個肯定不可能，機器從通過這個例子來慢慢發展到自己有了真的智能，根本做不到。

   要給大家就是說提前聲明一下，深度學習，就是說當你學完課程以後，可能你覺得好多東西我都做過了，好多都能做了，就不要有這種想法，深度學習是現在就是說比較接近於我們能夠用自己的大腦的一些結構，人類發覺了一些大腦結構來做東西的，但是大腦的結構僅僅佔1%都不到，這真正大腦你用的真正大腦的結構的1%都不到，然而你用的大腦佔你整個大腦的20%都不到，這是我們的人類的一個現在的一個特徵。我們還會給一些信息安全的實例，我們不但會提供深度學習的實例，還會給一些信息安全的事情，把現在能夠搜得到的那些信息安全的論文後用代碼來複現然後跟大家講解一下這是怎麼回事。 包括我們可能最後會涉及到人工智能系統，你看不懂代碼沒關係，我們也有python基礎，你不懂代碼的話，在安全界不好混的。我們免費贈送了數據處理的課，會教你數據處理中的過程，每個項目都是的，把數據清洗進到模型裏面測試驗證最後達到我們項目的效果。

以上內容參考安全牛課堂《機器學習與網絡安全》

機器學習與網絡安全（一）

工具集電子書等4G資料免費分享（IT 信安菜鳥入門必備）

2020年Security+備考經驗分享

等保2.0與大數據安全

【備考乾貨】一次拿下CISM認證的經驗分享

疫情之下看我如何調整心態拿下CISM認證

Mac下配置sublime實現LaTeX

https://yachay.unat.edu.pe/blog/index.php?comment_area=format_blog&comment_component=blog&comment_co

linux以太網驅動總結