機器學習 - 集體智慧

原創

2020-02-22 09:25

最近看區塊鏈方面的課外書，發現集體智慧這個詞出現非常頻繁，以前讀《集體智慧編程》也覺得這個名字很奇怪，似懂非懂。

Netflix 是一家在線租片兒的公司，並且更具用戶過去租片的行爲來進行推薦，他懸賞100萬美元去獎勵第一個把租片成功率提高10%的團隊，以及5 萬美元給這個團隊的leader，通過提供用戶以前租片的紀錄給團隊們進行推薦，現在做的最牛B的團隊是提高了 7%。

google 是意見搜索公司，創立當時有很多其他的公司，但是google 通過其他網頁對他的外鏈來進行排序，搜索質量遠遠好於其他的競爭對手，佔到了當時 85%的市場份額。他們的創始人也躋身世界上最有錢的10個人。

這兩家公司的共同點是什麼呢？他們回通過收集用戶的數據，運用強大的算法得出新的結論，創造新的結論，這種收集信息和計算的能力，讓他們更好的理解他們的顧客。這種事情發生在很多地方，比如做行程的網站，最好儘量給用戶提供最好的行程，每個人都希望更好了解他們的用戶。

在集體智慧中有很多有意思的例子。新的服務和機會每天都會出現，我相信瞭解機器學習和統計方法的人會在很多其他領域越來越受歡迎，關鍵是在解釋和組織大量用戶生成的信息。

什麼是集體智慧編程？
人們用集體智慧已經好幾年了，這個詞變的原來越流行，雖然這個詞給人感覺是個超自然的，但是這個詞表達了對人們行爲，愛好去創造新穎的見解。
集體智慧在互聯網之前就出現了，你不需要web去搜集信息，最典型的方式是做調查或者人口普查，通過蒐集很多人的答案，然後用一些統計方法，去得出一些甚至個體無法知道的結論。
一個被廣爲人知的例子是金融市場，人們在金融市場中交易，交易的價格不是某個人定義的，而是通過很多人的交易行爲定義的，交易的人總認爲他們的行爲是最有利於他們的，在未來的金融市場，個人交易者按照按照他們個人意願進行交易甚至會比一些專家做的預測更好，因爲他們市場會融合他們的知識，經驗，洞察成千上萬的人做一些預測，比一些專家都準。
儘管集體智慧方法在互聯網之前就一直有，但是互聯網收集信息的能力讓一切變的有其他可能。人們在互聯網上交易，找樂子，做研究，這一切數據都是可以被監控的，可以不用打斷大家的注意力就開始分析他們的行爲，下面幾個例子看看怎麼弄的。
wiki：維基百科做的事情就是讓所有用戶去編輯，只有少數專家來做監測，雖然他都是由普通用戶編輯，但是他的專業程度可以說是很專業的。這可以說是集體智慧的一種，任何頁面能夠被任何人編輯，維基百科沒有做其他處理，只是展示了最新的版本。
google：是世界上最受歡迎的搜索引擎，他通過鏈接來給網頁排序。這種排序的方法攜帶了大量用戶對這個網頁的評價的信息，用這些信息來給網頁做排序。wiki 只是簡答的展示了用戶的行爲，而google分析了大量網頁帶有的信息，用這些信息打分。
wiki百科最大的價值在於從用戶那裏提取信息進行展示，而不是做一些算法。其他做法更具科技含量，比如google的排序算法，通過計算去發現一些新的東西。一些數據需要問別人，而其他的可以隨便得到，比如在網上買了什麼東西，不管什麼方法收集數據都不重要，更加重要的是通過一些智慧的方法去發現一些新的東西。

什麼是機器學習？
機器學習是人工智能的一個分支，他允許機器去學習。這個意思是說，他會通過一些算法在給定的一個數據集上推測數據的一些屬性，並在其他數據集上做預測。這是因爲他假設任何非隨機的數據都是有模式的，這些模式允許機器去識別。爲了識別這些數據，機器會訓練一個模型去標示信息的重要的方面。
怎麼訓練一個模型，舉一個簡單的例子，一個垃圾郵件過濾系統。有人惡意攻擊你，給你發去去去，從人的角度來看，你會識別這個去去去，這種模式，明白去去去是一次攻擊，就會把這種郵件直接扔到垃圾郵件中。一個機器學習算法如果想像人一樣去做識別，得學會去認知這種模式。
有許多機器學習的算法，不同的算法應對不同的場景。有些算法是透明的，比如決策樹，每一步都可以被監測，明明白白，可以被debug，其他的比如說神經網絡，就像一個黑盒，只輸出結果。
許多機器學習算法依賴數學和統計。更具之前給出的定義，可以簡單的說，機器學習就是相關性統計和迴歸。

機器學習的限制
機器學習不是沒有任何缺點。不同算法在識別很大的數據集的時候有很大差異，模式很有可能被識別錯。人類有很多經驗，文化知識，讓他們可以去識別簡單的情況，做一些決定。機器只能靠以往的數據做一些有限的行爲。
在之前提到的郵件過濾的系統中，只是簡單依靠出現的詞，並沒有分析上下文，不是這樣做不可以，只是這樣做代價太大，在現在實際的生產環境中，得不償失，太複雜，不光是郵件過濾了。
在現有的機器學習的算法中，有個問題就是過渡學習。一些建立在少數信息上的識別是不準確的。比如我們收到了一個好朋友的去去去的郵件，這時候我們得告訴郵件過濾系統，這是合法的，系統會去猜測好朋友的郵件不過濾。許多機器學習算法的特性是他們不會持續不斷的學習新的信息。

真實生活的例子
互聯網上很多企業都在通過用戶信息，用機器學習和統計的方法去優化，其中最大的算是google了，他會用網頁的鏈接對搜索結果進行排序，更加重要的，他會手機用戶點擊廣告的行爲，對用戶推更好的廣告。
在比如亞馬遜，會通過其他的人的購買行爲給你推薦商品，一些音樂網站也會通過不同的歌曲來推一些東西。
預測也是集體智慧的一個方面，好萊塢股票交易，股票價格是通過一羣人的行爲，而不是個體的行爲。

其他領域的機器學習
1. 生物學用機器學習尋找dna 什麼亂七八糟的模式
2. 金融擔保計算交易是否欺詐
3. 圖像識別人臉識別，車牌識別啥的
4. 供應鏈最優化有很多關鍵因素決定是否是最優的
5. 國家安全

站內首發文章

KeeJee

發佈了139 篇原創文章 · 獲贊 141 · 訪問量 45萬+

他的留言板關注

發表評論

所有評論

還沒有人評論，想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.

機器學習 - 集體智慧

[軟件工具百科] 互聯網資源歷史快照歸檔站點與數字圖書館

網易面試：SpringBoot如何開啓虛擬線程？

杭州的 IT 崩盤了麼？

程序員常見的文本查看工具

VS2022 解決方案打不開 .NET Framework 4.0 、 4.5 等老項目

Vue3 運行可以，build 打包發佈報錯，app.config.globalProperties 用法坑

既然測試也要求寫代碼，那乾脆讓開發兼任測試不就好了嗎？

ITSM落地經驗之建設藍圖規劃

PDF 補丁丁 1.0.2 版更新

奇怪！應用的日誌呢？？

文本挖掘 - 文檔模型

ImageNet - 1000種物體對應編號

劍指offer - 第四題

Windows+Python3.6.0（Anaconda3）+OpenCV3.2.0安裝配置

機器學習 - 決策樹實現

Mac下配置sublime實現LaTeX

https://yachay.unat.edu.pe/blog/index.php?comment_area=format_blog&comment_component=blog&comment_co

linux以太網驅動總結