數據挖掘考題彙總

數據挖掘習題彙總

一 數據挖掘概述

  • 數據與知識的區別與聯繫?
    • 數據: 指描述事物的符號記錄, 它涉及到事物的存在形式, 是關於事物的一組離散且客觀的事實描述。
    • 知識: 反映各種事物的信息進入人們大腦,對神經細胞產生作用後留下的痕跡
    • 聯繫和區別: 通過數據可以推導出知識, 比如我們可以通過一系列出售數據推導出這個商店是賣什麼的(是否正確地運用知識對數據做出解釋,以得到準確的信息)
  • 列舉幾項你知道的數據挖掘應用, 並論述數據挖掘在其中的作用?
    • 傳感數據(衛星, 位傳感器)
    • 天體/空間物理數據
    • 生物/化學數據(基因序列, 分子結構)
  • 數據挖掘方法過程是什麼?
    • 挖掘前(數據清理, 變換, 歸約, 採樣, 統計, 預計算)
    • 關鍵方法:
      • 分類預測
      • 聚類分析
      • 孤立點分析
      • 趨勢和演變分析
  • 數據挖掘與統計的區別與聯繫?
    • 有大量數據的地方就需要數據挖掘
    • 統計是初級階段, 挖掘是進階
    • 數據挖掘是多學科交叉, 統計學只是其中的一部分
  • 數據挖掘與數據管理的區別與聯繫?
    • 只有經過一定的數據管理過程才能讓數據挖掘出來的信息更有價值?..

二 認識數據

  • 數據屬性有哪些類別?不同類別的屬性有哪些作用?
    • 標稱屬性: 就是用來描述一類事物的, 一般用來分類。
    • 二元屬性: 就是0或者1
    • 序數屬性: 就是屬性之間有順序的 如講師, 副教授, 教授
    • 數值屬性: 定量的, 分爲區間標度屬性和比例標度屬性
    • ps. 標稱, 二元, 序數是定性的, 數值是定量的
  • 如何對屬性的區間標度變量和二元變量進行相似度度量?
  • 基本統計描述有哪些?
    • 總量描述
    • 中心趨勢描述(均值, 中位數, 衆數, 中列數)
    • 相對描述
    • 變異描述(指標變異越大, 平均數的代表性越小;指標變異越小, 平均數代表性越大)
  • 基本統計描述該如何使用?
    • 會算不等於會用
    • 首先理解各個指標代表的意義
    • 進行相關分析, 找到變量之間的關聯關係
    • 進行迴歸分析, 通過一般關係推導數學模型, 通過已知變量推導未知變量
  • 爲什麼需要進行數據可視化?
    • 藉助圖形化的手段, 清晰有效的傳達和溝通信息
  • 數據可視化的七個階段是什麼?
    • 獲取
    • 分析
    • 過濾
    • 挖掘
    • 表達
    • 修飾
    • 交互
  • 數據可視化解決的重點問題是什麼?
    • 數據來源
    • 數據結構
    • 關注信息
    • 分析處理
    • 視覺模型
    • 清晰易讀
    • 操作控制

三 數據預處理

  • 數據預處理的作用?
    • 在數據進行處理前進行的一些操作
    • 現實世界中通常無法直接對原始數據進行挖掘或者結果差強人意, 爲了提高數據挖掘質量我們需要進行數據預處理, 將數據處理成更加符合預期的數據。
  • 什麼是ETL?ETL包括哪些步驟?
    • ETL是數據抽取(Extract)、清洗(Cleaning)、轉換(Transform)、裝載(Load)的過程。是構建數據倉庫的重要一環,用戶從數據源抽取出所需的數據,經過數據清洗,最終按照預先定義好的數據倉庫模型,將數據加載到數據倉庫中去。
  • 數據質量問題包含哪些?由什麼原因導致?
    • 數據質量在這裏插入圖片描述
    • 數據質量原因在這裏插入圖片描述
      在這裏插入圖片描述
  • ETL的常見問題包含哪些?
    • 字符集問題
    • 緩慢變化維處理
    • 增量, 實時同步的處理
    • 錯誤數據的檢測
    • 變化數據的捕獲
    • 抽取異常中止的處理
  • 數據庫和數據倉庫的區別?
    在這裏插入圖片描述
  • NoSql數據模型有哪些?與SQL模型相比, 有什麼區別和聯繫, 各有什麼優劣?
    • 鍵值對模型如(redis, MemcacheDB等)
    • 文檔模型(如 xml, json, mongoDB等)
    • 列族模型(如 hbase, amazon simpleDB等)
    • 圖模型(如 neo4J)
    • SQL和No-SQL的關係區別
  • 常見的數據預處理方法有哪些?分別如何處理?
    • 數據清洗
    • 數據集成與變換
    • 數據歸約
    • 離散化和概念分層
  • TF-IDF算法是什麼, 有什麼實際意義?
    • 算法過程在這裏插入圖片描述
    • 數學含義在這裏插入圖片描述

四 分類基礎

  • 概念描述和OLAP的區別是什麼?
    • OLAP聯機分析處理,是數據倉庫的核心,是對OLTP的歷史數據進行加工,分析處理,用於處理商業智能,決策支持等重要的決策信息
  • 概念描述方法有哪些?
    • 數據泛化
    • 解析特徵
    • 挖掘類比較
  • 什麼是分類, 什麼是有指導/無指導學習?
    • 分類就是將樣本按照不同特徵分爲不同類別
    • 有指導學習: 模型的學習在被告知每個訓練樣本屬於哪個類的指導下進行
    • 無指導學習: 模型不知道訓練樣本屬於哪個類, 聚類是典型的無指導學習
  • 什麼是決定性現象, 什麼是不確定現象?
    • 決定性現象: 就是不是0就是1的現象, 如水到100度必然沸騰, 篩子不可能到8點
    • 不確定現象: 在基本條件保持不變的情況下, 一系列的實驗會得到不同的結果。
  • 什麼是隨機試驗, 樣本空間, 樣本點, 隨機事件, 複合事件, 必然事件, 不可能事件?
    在這裏插入圖片描述
    在這裏插入圖片描述
  • 事件間的關係有哪些?
  • 概率與頻率的區別與聯繫?
    • 在試驗次數足夠多的情況下, 頻率趨近於概率
  • 概率有哪些基本性質?
  • 什麼是古典概率?
  • 什麼是條件概率?條件概率有哪些性質?
    • 在這裏插入圖片描述
  • 什麼是乘法定理?
    在這裏插入圖片描述
  • 條件概率與無條件概率有什麼關係?
    在這裏插入圖片描述
  • 條件概率與積事件概率有什麼關係?
    在這裏插入圖片描述
  • 什麼是全概率公式?
    在這裏插入圖片描述
  • 什麼是貝葉斯公式, 貝葉斯公式有什麼作用, 有哪些侷限性?
    在這裏插入圖片描述
    在這裏插入圖片描述
  • 什麼是樸素貝葉斯分類?
    • 就是貝葉斯中特徵都是獨立存在的?
      在這裏插入圖片描述
  • 什麼是貝葉斯網絡? 貝葉斯網絡和樸素貝葉斯有什麼區別和聯繫?
    在這裏插入圖片描述
    • 區別和聯繫
      在這裏插入圖片描述

五 決策樹與鏈接分析

  • 什麼是決策樹?
    在這裏插入圖片描述
  • 決策樹有什麼用?
    在這裏插入圖片描述
  • 決策樹生成方法有哪些?各有什麼特點?
  • 如何對決策樹進行剪枝?
    • 前期修剪
    • 後期修剪
  • 爲什麼要進行規則提取?如何進行規則提取?
    • 很多規則有可能冗餘?
  • 決策樹的進一步策略有哪些?
    • 純度計算
    • 錯誤率計算
    • 多屬性組合分類
  • 什麼是圖?
    • 對象(節點) 及 對象間關係(邊)的一種直觀展示
      在這裏插入圖片描述
  • 如何計算圖的最短路徑?
  • Pagerank, 漏斗模型, 關鍵路徑, 矩陣分析有哪些作用?
    • pagerank: 就是根據不同網頁間鏈接的出度入度數量 判斷網頁權重
    • 漏斗模型: 自頂而下, 逐層反應各個流程的數量和比例便於分析流失原因和轉化率
    • 關鍵路徑: 頂點表示事件, 弧表示活動, 弧上權值表示活動持續時間, 用來預估工程時間(關鍵路徑算法)
    • 矩陣分析: 表示兩個因素之間的關聯關係?

六 隨機過程與抽樣

  • 什麼是馬爾科夫模型?什麼是轉移概率?什麼是C-K方程?
  • 什麼是HMM, HMM的三大問題是什麼?
  • HMM三大問題的求解算法是什麼?
  • 什麼叫抽樣?抽樣都有哪些?如何抽樣?

七 聚類基礎

  • 什麼是聚類?
  • 聚類有什麼用?
  • 聚類和分類有什麼區別和聯繫?
  • 劃分聚類的算法思想, 過程, 優點, 缺點和可拓展點有哪些?
  • 點與點, 點與類, 類與類的距離計算方法有哪些?
  • 聚類評估典型任務有哪些, 思想分別是什麼, 有哪些典型的計算方法?

八 高級聚類方法

  • 密度聚類的核心概念, 算法思想, 過程, 優點, 缺點是什麼?
  • 網格聚類的核心概念, 算法思想, 過程, 優點, 缺點是什麼?
  • 圖聚類的核心概念, 算法思想, 過程, 優點, 缺點是什麼?
  • 什麼是離羣點?
  • 離羣點檢測有什麼意義?
  • 離羣點檢測方法有哪些?
發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章