文章目錄

數據挖掘習題彙總

數據挖掘習題彙總

一數據挖掘概述

數據與知識的區別與聯繫?
- 數據: 指描述事物的符號記錄, 它涉及到事物的存在形式, 是關於事物的一組離散且客觀的事實描述。
- 知識: 反映各種事物的信息進入人們大腦，對神經細胞產生作用後留下的痕跡
- 聯繫和區別: 通過數據可以推導出知識, 比如我們可以通過一系列出售數據推導出這個商店是賣什麼的(是否正確地運用知識對數據做出解釋，以得到準確的信息)
列舉幾項你知道的數據挖掘應用, 並論述數據挖掘在其中的作用?
- 傳感數據(衛星, 位傳感器)
- 天體/空間物理數據
- 生物/化學數據(基因序列, 分子結構)
- …
數據挖掘方法過程是什麼?
- 挖掘前(數據清理, 變換, 歸約, 採樣, 統計, 預計算)
- 關鍵方法:
  - 分類預測
  - 聚類分析
  - 孤立點分析
  - 趨勢和演變分析
數據挖掘與統計的區別與聯繫?
- 有大量數據的地方就需要數據挖掘
- 統計是初級階段, 挖掘是進階
- 數據挖掘是多學科交叉, 統計學只是其中的一部分
數據挖掘與數據管理的區別與聯繫?
- 只有經過一定的數據管理過程才能讓數據挖掘出來的信息更有價值?..

二認識數據

數據屬性有哪些類別?不同類別的屬性有哪些作用?
- 標稱屬性: 就是用來描述一類事物的, 一般用來分類。
- 二元屬性: 就是0或者1
- 序數屬性: 就是屬性之間有順序的如講師, 副教授, 教授
- 數值屬性: 定量的, 分爲區間標度屬性和比例標度屬性
- ps. 標稱, 二元, 序數是定性的, 數值是定量的
如何對屬性的區間標度變量和二元變量進行相似度度量?
- 區間標度變量
- 相似度度量
基本統計描述有哪些?
- 總量描述
- 中心趨勢描述(均值, 中位數, 衆數, 中列數)
- 相對描述
- 變異描述(指標變異越大, 平均數的代表性越小;指標變異越小, 平均數代表性越大)
基本統計描述該如何使用?
- 會算不等於會用
- 首先理解各個指標代表的意義
- 進行相關分析, 找到變量之間的關聯關係
- 進行迴歸分析, 通過一般關係推導數學模型, 通過已知變量推導未知變量
爲什麼需要進行數據可視化?
- 藉助圖形化的手段, 清晰有效的傳達和溝通信息
數據可視化的七個階段是什麼?
- 獲取
- 分析
- 過濾
- 挖掘
- 表達
- 修飾
- 交互
數據可視化解決的重點問題是什麼?
- 數據來源
- 數據結構
- 關注信息
- 分析處理
- 視覺模型
- 清晰易讀
- 操作控制

三數據預處理

數據預處理的作用?
- 在數據進行處理前進行的一些操作
- 現實世界中通常無法直接對原始數據進行挖掘或者結果差強人意, 爲了提高數據挖掘質量我們需要進行數據預處理, 將數據處理成更加符合預期的數據。
什麼是ETL?ETL包括哪些步驟?
- ETL是數據抽取（Extract）、清洗（Cleaning）、轉換（Transform）、裝載（Load）的過程。是構建數據倉庫的重要一環，用戶從數據源抽取出所需的數據，經過數據清洗,最終按照預先定義好的數據倉庫模型，將數據加載到數據倉庫中去。
數據質量問題包含哪些?由什麼原因導致?
- 數據質量
- 數據質量原因
ETL的常見問題包含哪些?
- 字符集問題
- 緩慢變化維處理
- 增量, 實時同步的處理
- 錯誤數據的檢測
- 變化數據的捕獲
- 抽取異常中止的處理
數據庫和數據倉庫的區別?
NoSql數據模型有哪些?與SQL模型相比, 有什麼區別和聯繫, 各有什麼優劣?
- 鍵值對模型如(redis, MemcacheDB等)
- 文檔模型(如 xml, json, mongoDB等)
- 列族模型(如 hbase, amazon simpleDB等)
- 圖模型(如 neo4J)
- SQL和No-SQL的關係區別
常見的數據預處理方法有哪些?分別如何處理?
- 數據清洗
- 數據集成與變換
- 數據歸約
- 離散化和概念分層
TF-IDF算法是什麼, 有什麼實際意義?
- 算法過程
- 數學含義

四分類基礎

概念描述和OLAP的區別是什麼?
- OLAP聯機分析處理，是數據倉庫的核心，是對OLTP的歷史數據進行加工，分析處理，用於處理商業智能，決策支持等重要的決策信息
概念描述方法有哪些?
- 數據泛化
- 解析特徵
- 挖掘類比較
什麼是分類, 什麼是有指導/無指導學習?
- 分類就是將樣本按照不同特徵分爲不同類別
- 有指導學習: 模型的學習在被告知每個訓練樣本屬於哪個類的指導下進行
- 無指導學習: 模型不知道訓練樣本屬於哪個類, 聚類是典型的無指導學習
什麼是決定性現象, 什麼是不確定現象?
- 決定性現象: 就是不是0就是1的現象, 如水到100度必然沸騰, 篩子不可能到8點
- 不確定現象: 在基本條件保持不變的情況下, 一系列的實驗會得到不同的結果。
什麼是隨機試驗, 樣本空間, 樣本點, 隨機事件, 複合事件, 必然事件, 不可能事件?
事件間的關係有哪些?
- 事件間關係
概率與頻率的區別與聯繫?
- 在試驗次數足夠多的情況下, 頻率趨近於概率
概率有哪些基本性質?
- 基本性質
什麼是古典概率?
什麼是條件概率?條件概率有哪些性質?
什麼是乘法定理?
條件概率與無條件概率有什麼關係?
條件概率與積事件概率有什麼關係?
什麼是全概率公式?
什麼是貝葉斯公式, 貝葉斯公式有什麼作用, 有哪些侷限性?
什麼是樸素貝葉斯分類?
- 就是貝葉斯中特徵都是獨立存在的?
什麼是貝葉斯網絡? 貝葉斯網絡和樸素貝葉斯有什麼區別和聯繫?
- 區別和聯繫

五決策樹與鏈接分析

什麼是決策樹?
決策樹有什麼用?
決策樹生成方法有哪些?各有什麼特點?
- 決策樹生成方法
如何對決策樹進行剪枝?
- 前期修剪
- 後期修剪
爲什麼要進行規則提取?如何進行規則提取?
- 很多規則有可能冗餘?
決策樹的進一步策略有哪些?
- 純度計算
- 錯誤率計算
- 多屬性組合分類
什麼是圖?
- 對象(節點) 及對象間關係(邊)的一種直觀展示
如何計算圖的最短路徑?
- 圖的幾種最短路徑算法
Pagerank, 漏斗模型, 關鍵路徑, 矩陣分析有哪些作用?
- pagerank: 就是根據不同網頁間鏈接的出度入度數量判斷網頁權重
- 漏斗模型: 自頂而下, 逐層反應各個流程的數量和比例便於分析流失原因和轉化率
- 關鍵路徑: 頂點表示事件, 弧表示活動, 弧上權值表示活動持續時間, 用來預估工程時間(關鍵路徑算法)
- 矩陣分析: 表示兩個因素之間的關聯關係?

六隨機過程與抽樣

什麼是馬爾科夫模型?什麼是轉移概率?什麼是C-K方程?
什麼是HMM, HMM的三大問題是什麼?
HMM三大問題的求解算法是什麼?
什麼叫抽樣?抽樣都有哪些?如何抽樣?

七聚類基礎

什麼是聚類?
聚類有什麼用?
聚類和分類有什麼區別和聯繫?
劃分聚類的算法思想, 過程, 優點, 缺點和可拓展點有哪些?
點與點, 點與類, 類與類的距離計算方法有哪些?
聚類評估典型任務有哪些, 思想分別是什麼, 有哪些典型的計算方法?

八高級聚類方法

密度聚類的核心概念, 算法思想, 過程, 優點, 缺點是什麼?
網格聚類的核心概念, 算法思想, 過程, 優點, 缺點是什麼?
圖聚類的核心概念, 算法思想, 過程, 優點, 缺點是什麼?
什麼是離羣點?
離羣點檢測有什麼意義?
離羣點檢測方法有哪些?

數據挖掘考題彙總

文章目錄

數據挖掘習題彙總

一數據挖掘概述

二認識數據

三數據預處理

四分類基礎

五決策樹與鏈接分析

六隨機過程與抽樣

七聚類基礎

八高級聚類方法

HTML頁面關於高分屏的設置

北歐瑞典挪威芬蘭瑞士TikTok海外網紅與YouTube博主的合作模式

druid數據源 xml配置

vim 打造C++開發環境

操作系統課堂筆記二-操作系統運行環境

操作系統課堂筆記一-操作系統概述

win10 MySQL-Python 快速安裝

Linux 常用命令(持續更新)

https://yachay.unat.edu.pe/blog/index.php?comment_area=format_blog&comment_component=blog&comment_co

linux以太網驅動總結

數據挖掘考題彙總

文章目錄

數據挖掘習題彙總

一 數據挖掘概述

二 認識數據

三 數據預處理

四 分類基礎

五 決策樹與鏈接分析

六 隨機過程與抽樣

七 聚類基礎

八 高級聚類方法

一數據挖掘概述

二認識數據

三數據預處理

四分類基礎

五決策樹與鏈接分析

六隨機過程與抽樣

七聚類基礎

八高級聚類方法