【數據分析與數據挖掘】一、數據分析概述

1.數據分析概述

(1)數據分析

利用統計學的方法,在數據中提取有用的信息,並進行總結與概括的過程。

(2)數據分析與挖掘的流程

數據獲取 —> 探索分析 —> 預處理 —> 數據建模 —> 模型評估。

  • 數據獲取的方法有很多,例如網頁抓取或者產品日誌獲取

  • 獲取後存儲的方式最常見的是把數據整理成表格的形式;

  • 整理完之後,找出數據有哪些屬性,屬性之間是否有關係,是否能通過已有的屬性,衍生出其他屬性;(探索分析與可視化);

  • 特徵預處理:把髒數據去掉,把數據特徵轉化成模型使用的格式;

  • 挖掘建模:涉及到分類模型,迴歸模型,聚類模型,關聯模型,半監督模型,(本課程會介紹這些模型的算法和內涵,以及使用實例,模型的本質是一個函數)

  • 模型評估

用python做數據分析,有這幾個數據分析包:NumPy、SciPy.org、matplotlib、scikit-learn、pandas

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章