Fast.ai Machine Learning for coders - Lesson 1

原創

2018-11-07 02:42

之前一直在吳恩達的公開課那塊學習，一方面學習了一些算法以及思想，另一方面也瞭解了一些理論。現在開始看 fast.ai，以實踐著稱。作者Jeremy Howard並不是學術圈的人，是工業界的人，在Kaggle 2010和2011上得了冠軍。其實有的時候啊，學術圈總是弄個準確率增加了0.1%啥的，類似於通信圈寫了8頁紙然後增加0.1 dB。所以想看看這種實踐性的人是怎麼考慮問題的。
因爲是實踐性的課程，所以就列出要點了：

現在比較好用的算法是結構化的數據，用集成的隨機森林比較好使，非結構化的用深度學習比較好使。
Dimensional Curse和NO Free Lunch 兩個理論是：“They are largely meaningless and basically stupid.”（這就是爲啥我覺得爲啥好多理論是bullshit）。因爲首先數據並不是一個純粹的隨機數據，而是一個高維空間的低維流形。因此並不是說緯度越高，最後點與點之間的距離就沒意義了，是依舊有意義的。另外一個NO Free Lunch也是第一個意思，就是數據不是純隨機的。如果是純隨機，那確實是這樣。
如果是數值的特徵發生了缺失，應該擴展一列，將缺失的按照1標註，沒缺失的按照0標註，然後在缺失的位置填上平均數。如果是類別特徵缺失，直接將缺失單獨作爲一列就可以了。
日期、時間特徵的特徵工程。需要給時間加上是不是週末，第幾季度，是不是節假日等等。
隨機森林很好用，把特徵整理好之後，直接一跑，就能Kaggle 前25%。

發表評論

所有評論

還沒有人評論，想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.

Fast.ai Machine Learning for coders - Lesson 1

釘釘打卡速度慢

Nginx R31 doc 官方文檔-01-nginx 如何安裝

Qt/C++音視頻開發74-合併標籤圖形/生成yolo運算結果圖形/文字和圖形合併成一個/水印濾鏡

挑戰程序設計競賽 2.2章習題 POJ - 3617 Best Cow Line 貪心

字節面試：MySQL什麼時候鎖表？如何防止鎖表？

.NET8連接SQL SERVER 2008 R2 報：證書鏈是由不受信任的頒發機構頒發的

golang開發環境搭建(win10)

python計算機視覺學習筆記——PIL庫的用法

Golang初學：獲取程序內存使用情況，std runtime

論人生（2）

吳恩達Deeplearning.ai 知識點梳理（course 4，week 4）

路徑規劃A*算法

吳恩達Deeplearning.ai 知識點梳理（course 4，week 2）

Coursera UPenn 機器人學課程筆記 - Course 1 Aerial Robotics Week 1

https://yachay.unat.edu.pe/blog/index.php?comment_area=format_blog&comment_component=blog&comment_co

linux以太網驅動總結