04_機器學習概述，什麼是機器學習，應用場景，數據來源與類型，網上可用的數據集、常用數據集數據的結構組成、特徵工程是什麼、意義、特徵抽取、sklearn特徵抽取API、文本特徵抽取（學習筆記）

機器學習概述

人工智能、機器學習、深度學習之間的關係

機器學習框架

Pytorch
Caffe2
theano
Chainer
Scikit-learn

語言支持

機器學習書籍

《面向機器智能 TensorFlow實踐》
《MACHINE LEARNING 機器學習》，周志華
《TensorFlow技術解析與實踐》

什麼是機器學習

機器學習是從數據中自動分析獲得規律（模型），並利用規律對未知數據進行預測。

應用案例

案例1

案例2

爲什麼需要機器學習

機器學習應用場景

1、自然語言處理
2、無人駕駛
3、計算機視覺
4、推薦系統

數據來源與類型

1、數據來源

企業日益積累的大量數據（互聯網公司更爲顯著）
政府掌握的各種數據
科研機構的實驗數據

2、數據類型

離散型數據：由記錄不同類別個體的數目所得到的數據，又稱計數數據，所有這些數據全部都是整數，而且不能再也不能進一步提高他們的精確度。
連續型數據：變量可以在某個範圍內取任一數，即變量的取值可以是連續的，如，長度、時間、質量值等，這類整數通常是非整數，含有小數部分。

注：只要記住一點，離散型是區間內不可分，連續型是區間內可分

數據類型的不用應用

數據的類型將是機器學習模型不同問題不同處理的依據？

3、可用的數據集

常用數據集數據的結構組成

結構：特徵值 + 目標值

例如：

注：有些數據集可以沒有目標值

數據的特徵工程

1、特徵工程是什麼

特徵工程是將原始數據轉換爲更好地代表預測模型的潛在問題的特徵的過程，從而提高了對未知數據的模型準確性

案例：
將下面的文本轉換爲數字類型的過程。

再如，將一個numpy的數組按照一定規則轉成另外一個

2、特徵工程的意義

直接影響模型的預測結果

3、scikit-learn庫介紹

Python語言的機器學習工具
Scikit-learn包括許多知名的機器學習算法的實現。
Scikit-learn文檔完善，容易上手，豐富的API，使其在學術界頗受歡迎。

安裝參考：https://blog.csdn.net/tototuzuoquan/article/details/105290465

4、數據的特徵抽取

閱讀：https://blog.csdn.net/tototuzuoquan/article/details/105424709

5、數值的特徵處理

閱讀：https://blog.csdn.net/tototuzuoquan/article/details/105440244

6、機器學習模型是什麼

定義：通過一種映射關係將輸入值到輸出值

7、機器學習算法分類

機器學習開發流程

監督學習

1、分類 : k-近鄰算法、貝葉斯分類、決策樹與隨機森林、邏輯迴歸、神經網絡
2、迴歸：線性迴歸、嶺迴歸
3、標註：隱馬爾可夫模型（不做要求）

無監督學習

1、聚類：k-means

8、監督學習

監督學習 （英語：Supervised learning），可以由輸入數據中學到或建立一個模型，並依此模式推測新的結果。輸入數據是由
輸入特徵值和目標值所組成。函數的輸出可以是一個連續的值（稱爲迴歸），或是輸出是有限個離散值（稱作分類）。

無監督學習（英語：Supervised learning），可以由輸入數據中學到或建立一個模型，並依此模式推測新的結果。輸入數據是
由輸入特徵值所組成。

分類問題

概念：分類是監督學習的一個核心問題，在監督學習中，當輸出變量取有限個離散值時，預測問題變成爲分類問題。最基礎的便是二分類問題，即判斷是非，從兩個類別中選擇一個作爲預測結果；

分類問題的應用

分類在於根據其特性將數據“分門別類”，所以在許多領域都有廣泛的應用：
   1、在銀行業務中，構建一個客戶分類模型，按客戶按照貸款風險的大小進行分類
   2、 圖像處理中，分類可以用來檢測圖像中是否有人臉出現，動物類別等
   3、手寫識別中，分類可以用於識別手寫的數字
   4、文本分類，這裏的文本可以是新聞報道、網頁、電子郵件、學術論文
    …

迴歸問題：

概念：迴歸是監督學習的另一個重要問題。迴歸用於預測輸入變量和輸出變量之間的關係，輸出是連續型的值。

迴歸在多領域也有廣泛的應用
   1、房價預測，根據某地歷史房價數據，進行一個預測
   2、金融信息，每日股票走向
…