一:數據挖掘的主要過程:
1:定義目標
2:獲取數據(爬蟲或者下載一些統計網站的數據)
3:數據探索:
4:數據預處理(數據清洗、數據集成、數據變換、數據規約:將數據精簡的過程)
5:挖掘建模(分類、聚類、關聯、預測)
6:模型評價與發佈
二:相關模塊簡介
1:numpy可以高效處理數據、提供數組支持、很多模塊都依賴他、比如pandas,scipy,matplotlib都依賴他,所以這個模塊是基礎。除了爲python提供快速的數組處理能力,在數據分析方面還有另外一個主要的作用就是作爲在算法之間傳遞數據的容器。
2:pandas主要用於數據探索和數據分析
3:matplotlib作圖模塊,解決可視化問題
4:scipy主要進行數值計算,同時支持矩陣運算,並提供了很多高等數據處理功能,比如積分、傅里葉變換、微分方程求解
5:stasmodels這個模塊主要是用於統計分析
6:Gensim這個模塊主要是用於文本挖掘
7:sklearn、keras前者機器學習,後者深度學習