Python數據分析與挖掘實戰學習筆記(1)

Chapter1 數據挖掘基礎

什麼是數據挖掘

 從數據中淘金,從大量數據(包括文本)中挖掘出隱含的、未知的、對決策有潛在價值的關係、模式和趨勢,並用這些知識和規則建立用於決策支持的模型,提供預測性決策支持的方法、工具和過程,就是數據挖掘。

數據挖掘的基本過程

定義挖掘目標

 針對具體的數據挖掘應用需求,首先要明確本次的挖掘目標是什麼?系統完成後能達到什麼樣的效果?因此,我們必須分析應用領域,包括應用中的各種知識和應用目標,瞭解相關領域的情況,熟悉背景知識,弄清用戶需求。

數據取樣

 在明確了需要進行挖掘的目標以後,接下來就需要從業務系統中抽取出一個與挖掘目標相關的樣本數據子集。抽取數據的標準,一是相關性,二是可靠性,三是有效性,而不是動用全部的企業數據。通過對數據樣本的精選,不僅能減少數據處理量,節省系統資源,還可以使我們想要尋找的規律性更加凸顯出來。
 進行數據取樣,一定要嚴把質量關。在任何時候都不能忽視數據的質量,即使是從一個數據倉庫中進行數據取樣,也不要忘記檢查其質量。因爲數據挖掘是要探索企業運作的內在規律性,原始數據有誤,就很難從中探索規律性。若真的從中還探索出來了什麼“規律性”,再依此下去,則很可能會造成誤導。若從正在運行的系統中進行數據取樣,更要注意數據的完整性和有效性。

數據探索

 前面所述的數據取樣,多少是帶着人們對如何實現數據挖掘目標的先驗認識進行操作的。當我們拿到了一個樣本數據集後,它是否達到我們原來設想的要求;樣本中有沒有什麼明顯的規律和趨勢;有沒有出現從未設想過的數據狀態;屬性之間有什麼相關性;它們可分成怎樣一些類別。。。。。,這都是要探索的內容。
 對所抽取的樣本數據進行探索、審覈和必要的加工處理,是保證最終的挖掘模型的質量所必需的。可以說,挖掘模型的質量不會超過抽取樣本的質量。數據探索和預處理的目的是爲了保證樣本數據的質量,從而爲保證模型質量打下基礎。

數據預處理

 當採集數據維度過大時,如何進行降維處理、缺失值處理等都是數據預處理要解決的問題。
 由於採樣數據中常常包含許多含有噪聲、不完整,甚至不一致的數據,對數據挖掘所涉及的數據對象必須進行預處理。
 針對採集的餐飲數據,數據預處理主要包括:數據篩選、數據質量變換、缺失值處理、壞數據處理、數據標準化、主成分分析、屬性選擇、數據規約等,有關介紹詳見第3章。(後面會介紹)

模型評價

 從構建好的模型中會得到許多的分析結果,模型評價的目的之一就是從這些模型中自動找出一個最好的模型,另外就是要根據業務對模型進行解釋和應用。

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章