數據挖掘習題彙總
一 數據挖掘概述
- 數據與知識的區別與聯繫?
- 數據: 指描述事物的符號記錄, 它涉及到事物的存在形式, 是關於事物的一組離散且客觀的事實描述。
- 知識: 反映各種事物的信息進入人們大腦,對神經細胞產生作用後留下的痕跡
- 聯繫和區別: 通過數據可以推導出知識, 比如我們可以通過一系列出售數據推導出這個商店是賣什麼的(是否正確地運用知識對數據做出解釋,以得到準確的信息)
- 列舉幾項你知道的數據挖掘應用, 並論述數據挖掘在其中的作用?
- 傳感數據(衛星, 位傳感器)
- 天體/空間物理數據
- 生物/化學數據(基因序列, 分子結構)
- …
- 數據挖掘方法過程是什麼?
- 挖掘前(數據清理, 變換, 歸約, 採樣, 統計, 預計算)
- 關鍵方法:
- 分類預測
- 聚類分析
- 孤立點分析
- 趨勢和演變分析
- 數據挖掘與統計的區別與聯繫?
- 有大量數據的地方就需要數據挖掘
- 統計是初級階段, 挖掘是進階
- 數據挖掘是多學科交叉, 統計學只是其中的一部分
- 數據挖掘與數據管理的區別與聯繫?
- 只有經過一定的數據管理過程才能讓數據挖掘出來的信息更有價值?..
二 認識數據
- 數據屬性有哪些類別?不同類別的屬性有哪些作用?
- 標稱屬性: 就是用來描述一類事物的, 一般用來分類。
- 二元屬性: 就是0或者1
- 序數屬性: 就是屬性之間有順序的 如講師, 副教授, 教授
- 數值屬性: 定量的, 分爲區間標度屬性和比例標度屬性
- ps. 標稱, 二元, 序數是定性的, 數值是定量的
- 如何對屬性的區間標度變量和二元變量進行相似度度量?
- 區間標度變量
- 相似度度量
- 基本統計描述有哪些?
- 總量描述
- 中心趨勢描述(均值, 中位數, 衆數, 中列數)
- 相對描述
- 變異描述(指標變異越大, 平均數的代表性越小;指標變異越小, 平均數代表性越大)
- 基本統計描述該如何使用?
- 會算不等於會用
- 首先理解各個指標代表的意義
- 進行相關分析, 找到變量之間的關聯關係
- 進行迴歸分析, 通過一般關係推導數學模型, 通過已知變量推導未知變量
- 爲什麼需要進行數據可視化?
- 藉助圖形化的手段, 清晰有效的傳達和溝通信息
- 數據可視化的七個階段是什麼?
- 獲取
- 分析
- 過濾
- 挖掘
- 表達
- 修飾
- 交互
- 數據可視化解決的重點問題是什麼?
- 數據來源
- 數據結構
- 關注信息
- 分析處理
- 視覺模型
- 清晰易讀
- 操作控制
三 數據預處理
- 數據預處理的作用?
- 在數據進行處理前進行的一些操作
- 現實世界中通常無法直接對原始數據進行挖掘或者結果差強人意, 爲了提高數據挖掘質量我們需要進行數據預處理, 將數據處理成更加符合預期的數據。
- 什麼是ETL?ETL包括哪些步驟?
- ETL是數據抽取(Extract)、清洗(Cleaning)、轉換(Transform)、裝載(Load)的過程。是構建數據倉庫的重要一環,用戶從數據源抽取出所需的數據,經過數據清洗,最終按照預先定義好的數據倉庫模型,將數據加載到數據倉庫中去。
- 數據質量問題包含哪些?由什麼原因導致?
- 數據質量
- 數據質量原因
- ETL的常見問題包含哪些?
- 字符集問題
- 緩慢變化維處理
- 增量, 實時同步的處理
- 錯誤數據的檢測
- 變化數據的捕獲
- 抽取異常中止的處理
- 數據庫和數據倉庫的區別?
- NoSql數據模型有哪些?與SQL模型相比, 有什麼區別和聯繫, 各有什麼優劣?
- 鍵值對模型如(redis, MemcacheDB等)
- 文檔模型(如 xml, json, mongoDB等)
- 列族模型(如 hbase, amazon simpleDB等)
- 圖模型(如 neo4J)
- SQL和No-SQL的關係區別
- 常見的數據預處理方法有哪些?分別如何處理?
- 數據清洗
- 數據集成與變換
- 數據歸約
- 離散化和概念分層
- TF-IDF算法是什麼, 有什麼實際意義?
- 算法過程
- 數學含義
四 分類基礎
- 概念描述和OLAP的區別是什麼?
- OLAP聯機分析處理,是數據倉庫的核心,是對OLTP的歷史數據進行加工,分析處理,用於處理商業智能,決策支持等重要的決策信息
- 概念描述方法有哪些?
- 數據泛化
- 解析特徵
- 挖掘類比較
- 什麼是分類, 什麼是有指導/無指導學習?
- 分類就是將樣本按照不同特徵分爲不同類別
- 有指導學習: 模型的學習在被告知每個訓練樣本屬於哪個類的指導下進行
- 無指導學習: 模型不知道訓練樣本屬於哪個類, 聚類是典型的無指導學習
- 什麼是決定性現象, 什麼是不確定現象?
- 決定性現象: 就是不是0就是1的現象, 如水到100度必然沸騰, 篩子不可能到8點
- 不確定現象: 在基本條件保持不變的情況下, 一系列的實驗會得到不同的結果。
- 什麼是隨機試驗, 樣本空間, 樣本點, 隨機事件, 複合事件, 必然事件, 不可能事件?
- 事件間的關係有哪些?
- 概率與頻率的區別與聯繫?
- 在試驗次數足夠多的情況下, 頻率趨近於概率
- 概率有哪些基本性質?
- 什麼是古典概率?
- 什麼是條件概率?條件概率有哪些性質?
- 什麼是乘法定理?
- 條件概率與無條件概率有什麼關係?
- 條件概率與積事件概率有什麼關係?
- 什麼是全概率公式?
- 什麼是貝葉斯公式, 貝葉斯公式有什麼作用, 有哪些侷限性?
- 什麼是樸素貝葉斯分類?
- 就是貝葉斯中特徵都是獨立存在的?
- 就是貝葉斯中特徵都是獨立存在的?
- 什麼是貝葉斯網絡? 貝葉斯網絡和樸素貝葉斯有什麼區別和聯繫?
- 區別和聯繫
- 區別和聯繫
五 決策樹與鏈接分析
- 什麼是決策樹?
- 決策樹有什麼用?
- 決策樹生成方法有哪些?各有什麼特點?
- 如何對決策樹進行剪枝?
- 前期修剪
- 後期修剪
- 爲什麼要進行規則提取?如何進行規則提取?
- 很多規則有可能冗餘?
- 決策樹的進一步策略有哪些?
- 純度計算
- 錯誤率計算
- 多屬性組合分類
- 什麼是圖?
- 對象(節點) 及 對象間關係(邊)的一種直觀展示
- 對象(節點) 及 對象間關係(邊)的一種直觀展示
- 如何計算圖的最短路徑?
- Pagerank, 漏斗模型, 關鍵路徑, 矩陣分析有哪些作用?
- pagerank: 就是根據不同網頁間鏈接的出度入度數量 判斷網頁權重
- 漏斗模型: 自頂而下, 逐層反應各個流程的數量和比例便於分析流失原因和轉化率
- 關鍵路徑: 頂點表示事件, 弧表示活動, 弧上權值表示活動持續時間, 用來預估工程時間(關鍵路徑算法)
- 矩陣分析: 表示兩個因素之間的關聯關係?
六 隨機過程與抽樣
- 什麼是馬爾科夫模型?什麼是轉移概率?什麼是C-K方程?
- 什麼是HMM, HMM的三大問題是什麼?
- HMM三大問題的求解算法是什麼?
- 什麼叫抽樣?抽樣都有哪些?如何抽樣?
七 聚類基礎
- 什麼是聚類?
- 聚類有什麼用?
- 聚類和分類有什麼區別和聯繫?
- 劃分聚類的算法思想, 過程, 優點, 缺點和可拓展點有哪些?
- 點與點, 點與類, 類與類的距離計算方法有哪些?
- 聚類評估典型任務有哪些, 思想分別是什麼, 有哪些典型的計算方法?
八 高級聚類方法
- 密度聚類的核心概念, 算法思想, 過程, 優點, 缺點是什麼?
- 網格聚類的核心概念, 算法思想, 過程, 優點, 缺點是什麼?
- 圖聚類的核心概念, 算法思想, 過程, 優點, 缺點是什麼?
- 什麼是離羣點?
- 離羣點檢測有什麼意義?
- 離羣點檢測方法有哪些?