1.數據分析概述
(1)數據分析
利用統計學的方法,在數據中提取有用的信息,並進行總結與概括的過程。
(2)數據分析與挖掘的流程
數據獲取 —> 探索分析 —> 預處理 —> 數據建模 —> 模型評估。
-
數據獲取的方法有很多,例如網頁抓取或者產品日誌獲取;
-
獲取後存儲的方式最常見的是把數據整理成表格的形式;
-
整理完之後,找出數據有哪些屬性,屬性之間是否有關係,是否能通過已有的屬性,衍生出其他屬性;(探索分析與可視化);
-
特徵預處理:把髒數據去掉,把數據特徵轉化成模型使用的格式;
-
挖掘建模:涉及到分類模型,迴歸模型,聚類模型,關聯模型,半監督模型,(本課程會介紹這些模型的算法和內涵,以及使用實例,模型的本質是一個函數)
-
模型評估;
用python做數據分析,有這幾個數據分析包:NumPy、SciPy.org、matplotlib、scikit-learn、pandas