什麼是數據挖掘
前兩天看到羣裏有人問,什麼是數據挖掘,現在就數據挖掘的概念做一下分析,並且儘量用大白話說一下數據挖掘到底是個啥東西,爲啥大數據來了數據挖掘也火了(其實原來就挺火)。
先看一上概念:
數據挖掘(英語:Data mining),又譯爲資料探勘、數據採礦。它是數據庫知識發現(英語:Knowledge-Discovery in Databases,簡稱:KDD)中的一個步驟。數據挖掘一般是指從大量的數據中通過算法搜索隱藏於其中信息的過程。數據挖掘通常與計算機科學有關,並通過統計、在線分析處理、情報檢索、機器學習、專家系統(依靠過去的經驗法則)和模式識別等諸多方法來實現上述目標。
數據挖掘簡介
數據挖掘說的直白些就是在海量的數據中找到有價值的數據,爲企業經營決策提供依據。
價值包括以下幾類:
1、相關性
相關性分析是指對兩個或多個具備相關性的變量元素進行分析,從而衡量兩個變量因素的相關密切程度。相關性的元素之間需要存在一定的聯繫或者概率纔可以進行相關性分析。相關性不等於因果性,也不是簡單的個性化,相關性所涵蓋的範圍和領域幾乎覆蓋了我們所見到的方方面面,相關性在不同的學科裏面的定義也有很大的差異。用於確定數據之間的變化情況,即其中一個屬性或幾個屬性變化的是否會對其它屬性造成影響,影響有多大。
下圖就是相關性的示例:
2、趨勢
是指將實際達到的結果,與不同時期財務報表中同類指標的歷史數據進行比較 ,從而確定財務狀況,經營成果和現金流量的變化趨勢和變化規律的一種分析方法。可以通過拆線圖預測數據的走向和趨勢,也可以通過環比、同比的方式對比較的結果進行說明。
如下圖所示:
3、特徵
看具體分析的內容是什麼,比如互聯網類,就是用戶畫像這類的需求,根據不同的用戶給用戶羣打相應的標籤。
下圖是一個示意圖:
展現形式
數據挖掘的結果一般有幾種展現形式:
1、表格
最早的一種展現方式,交叉表的展示,如下圖:
2、圖表
相比於圖表更具展現力,讓人很直觀的就能看出數據的整體情況,如下圖:
3、決策樹
套用俗語,決策樹分類的思想類似於找對象。現想象一個女孩的母親要給這個女孩介紹男朋友,於是有了下面的對話:
女兒:多大年紀了?
母親:26。
女兒:長的帥不帥?
母親:挺帥的。
女兒:收入高不?
母親:不算很高,中等情況。
女兒:是公務員不?
母親:是,在稅務局上班呢。
女兒:那好,我去見見。
這個女孩的決策過程就是典型的分類樹決策。相當於通過年齡、長相、收入和是否公務員對將男人分爲兩個類別:見和不見。假設這個女孩對男人的要求是:30歲以下、長相中等以上並且是高收入者或中等以上收入的公務員,那麼這個可以用下圖表示女孩的決策邏輯:
數據挖掘涉及的領域
數據挖掘是計算機學科中的一個交叉研究領域,其研究方法與多個其他科學緊密相連,如:統計、機2器學習、專家系統、信息檢索、社會網絡、自然語言處理和模式識別等等。
總結
這裏簡單的介紹了一下數據挖掘的概念以及數據挖掘的展現形式和數據挖掘到底能做一些什麼,在後面會繼續深和的介紹,以期和大家一起提高。