什麼是機器學習?
機器學習是從數據中自動分析獲得規律(模型),並利用規律對未知數據進行預測
爲什麼需要機器學習
解放生產力、解決專業問題、提供社會便利
機器學習應用場景
自然語言處理、無人駕駛、計算機視覺、推薦系統、、、
機器學習在各領域帶來的價值
領域:醫療、航空、教育、物流、電商。。。。
目的: 讓機器學習程序替換手動的步驟,減少企業的成本也提高企業的效率
機器學習的數據集組成
1.數據來源,以及存放方式
從歷史數據當中獲取規律?這些歷史數據是怎麼樣的格式?
1.大多數以文件的形式 (csv文件..), 因爲mysql有性能瓶頸、讀取速度遭到限制,數據大的時候很費時間
2. 格式不太符合機器學習要求的數據格式
2.讀取數據的工具
Python中很強大的模塊 pandas:讀取工具、numpy(數據計算模塊,計算速度非常快,因爲釋放了Python中的GIL)
3.可用數據集
Kaggle特點:1、大數據競賽平臺 2、80萬科學家 3、真實數據 4、數據量巨大
UCI特點:1、收錄了360個數據集 2、覆蓋科學、生活、經濟等領域 3、數據量幾十萬
scikit-learn特點:1、數據量較小 2、方便學習
網址:
Kaggle網址:https://www.kaggle.com/datasets
UCI數據集網址: http://archive.ics.uci.edu/ml/
scikit-learn網址:http://scikit-learn.org/stable/datasets/index.html#datasets
4.特徵值-目標值
特徵值: 就是DataFrame中的列索引,
目標值: 很據特徵值得到的結果值,就爲目標值,(就是想要做的事情的目的的分類)
特徵工程
特徵工程是將原始數據轉換爲更好地代表預測模型的潛在問題的特徵的過程,從而提高了對未知數據的模型準確性
特徵工程的意義
•直接影響模型的預測結果