【數據挖掘】期末考試備考複習寶典（一文搞定，期末考試不再擔憂）

項目暫時告一段落，複習複習！要期末考試了，整理一份寶典備考。文章內容由淺葉輕舟弟弟提供，覺得不錯的話，點贊支持一波！

單選

1、下列選項哪個描述的是“訓練樣本”（B）

A、在電子病歷數據中，每一個樣本有八個檢測指標，但是沒有醫生診斷結果
B、在電子病歷數據中，每一個樣本有八個檢測指標，每個樣本還有一個醫生診斷結果
C、在電子病歷數據中，每一個樣本有八個檢測指標，但是沒有醫生診斷結果；算法自動得到這些樣本的診斷結果
D、在電子病歷數據中，每一個樣本有八個檢測指標，醫生根據這八個指標做出診斷

2、下列選項哪個描述的是“分類”（C）

A、在電子病歷數據中，每一個樣本有八個檢測指標，但是沒有醫生診斷結果
B、在電子病歷數據中，每一個樣本有八個檢測指標，每個樣本還有一個醫生診斷結果
C、在電子病歷數據中，每一個樣本有八個檢測指標，但是沒有醫生診斷結果；算法自動得到這些樣本的診斷結果
D、在電子病歷數據中，每一個樣本有八個檢測指標，醫生根據這八個指標做出診斷

3、列哪個選項描述的不是“聚類”（C）

A、搜索引擎返回的文檔中，將相似的文檔聚合成一類
B、電子商務網站數據中，購物歷史相似的用戶自動聚合成一組
C、電子商務網站數據中，分析出用戶常常一起購買的商品，組合到一起促銷
D、在電子病歷數據中，將體檢指標相似的樣本自動聚合成一組

4、在MATLAB語言中，以下說法中錯誤的是

A、MATLAB中默認的數據類型是double
B、3<5的運算結果是logical類型
C、變量Abc和abc是代表兩個相同的變量
D、灰度圖的圖像矩陣中的數據是uint8類型

5、數據對象的別名不包括（D）

A、記錄 B、樣本 C、向量 D、特徵

6、屬性的別名不包括（B）

A、特徵 B、樣本 C、字段 D、維

7、下列說法不正確的是（C）

A、測量標度是將數值或符號與對象的屬性相關聯的規則
B、屬性的性質不必與用來度量它的值的性質完全相同
C、即使在不同的應用問題中，同一個物理量也必然使用同一種類型的屬性來描述
D、屬性類型可以劃分爲：標稱、序數、區間、比率這四種

8、某辦公自動化系統中，採用出生年份表示僱員的年齡，這是什麼類型屬性（C）

A、標稱 B、序數 C、區間 D、比率

9、某學籍管理系統中，採用百分制表示學生分數，這是什麼類型屬性（D）

A、標稱 B、序數 C、區間 D、比率

10、描述一個數據集的屬性主要不包括（A）

A、置信度 B、維度 C、分辨率 D、稀疏性

11、下列說法中錯誤的是（D）

A、噪聲是測量誤差的隨機部分
B、數據中出現遺漏值的原因，可能是信息沒有收集到，或者屬性不適用於所有情況。
C、通常由於不同的數據源合併時造成重複數據的產生
D、離羣點不可能是合法的數據對象或值

12、下列選項中不屬於數據預處理方法的是（B）

A、維歸約 B、聚類 C、離散化與二元化 D、屬性變換

13、下列說法中錯誤的是（B）

A、維歸約是通過創建新屬性，將一些舊屬性合併在一起來降低數據集的維度值
B、通過聚集操作，對象或屬性羣的行爲通常比單個對象或屬性的行爲更加穩定；並且聚集操作不會丟失有趣的細節
C、之所以可以進行特徵子集選擇，是因爲特徵中通常包含冗餘特徵和不相關特徵
D、特徵創建方法包括：特徵提取、映射數據到新的空間、特徵構造

多選

1、引發人們對數據挖掘開展研究的挑戰性問題包括（ABCDE）

A、可伸縮
B、高維性
C、異種數據和複雜數據
D、數據的所有權與分佈
E、非傳統的分析

2、下列哪些屬於預測性任務（BC）

A、關聯規則發現 B、分類 C、迴歸 D、聚類

3、下列哪些屬於描述性任務（AD）

A、關聯規則發現 B、分類 C、迴歸 D、聚類

填空

1、執行完matlab命令“a=[1, 2; 2, 3; 6, 10]”之後，a中的數據有 3 行 2 列

2、執行完matlab命令“a=[2:3:10]”之後，a中的數據依次爲2、5、8

3、執行完matlab命令“a=[1, 2; 4, 3; 6, 10]”之後，a(3,2)的值爲10

4、執行完matlab命令X=[3 2 0; -5 6 1]; indices =find(X>=1) 之後，變量indices中的值依次是1、3、4、6

5、已知X=[3 2 0 4; -5 6 1 2]; 執行完matlab命令“X(:,2)=[ ]”之後，X矩陣有 2 行 3 列

6、分析以下matlab命令的執行結果：

x=[3,2,1,0] 
a=length(x)
b=size(x,1)
c=size(x,2)
s=sum(x)

a 的值爲 4
b 的值爲 1
c 的值爲 4
s 的值爲 6

7、已知函數定義如下

function [y]=fun(x)    
if(x<-5)
	y=x*3;
elseif(x<=0)
	y=-x;
else
	y=x*2;
end
end

fun(-10) 的返回值爲 -30
fun(-5) 的返回值爲 5
fun(3) 的返回值爲 6

8、向量x=[3,2,3,1],y=[1,4,5,3],兩者之間的歐幾里得距離爲 4

9、x=[1,2,0,2,0],y=[2,2,2,0,2],兩者之間的夾角餘弦相似度爲 0.5

10、x=[1,3,0,2],y=[2,3,2,0],兩者之間的歐幾里得距離爲 3

11、x=[0,1,1,0,0],y=[1,1,0,0,1],兩者之間的Jaccard相似性係數爲0.25

12、x=[0,1,1,0,0],y=[1,1,0,0,1],兩者之間的簡單匹配係數爲 0.4

13、考試成績定義爲“優”、“良”、“中”、“差”四種，屬性“良”和“中”之間的相異度爲（答案可以寫成分數或小數形式，小數形式保留小數點後2位）0.33

14、數據的屬性已知，數據的類別也已知，這樣的數據叫做訓練樣本

15、數據的屬性已知，數據的類別未知，這樣的數據叫做測試樣本

16、已知一個數據集，其中有2個類的樣本，這2個類的樣本數量分別爲1、2，則該數據集的熵值爲 -(1/3)*log2(1/3)-(2/3)*log2(2/3)

17、已知一個數據集，其中有3個類的樣本，這3個類的樣本數量分別爲1、1、3，則該數據集的Classification Error爲 0.4

18、已知一個數據集，其中有2個類的樣本，這2個類的樣本數量分別爲1、4，則該數據集的 GINI 值爲 0.32

19、在神經元細胞中，樹突是接受從其它神經元傳入的信息的入口。

20、在神經元細胞中，軸突是把神經元興奮的信息傳出到其它神經元的出口。

21、感知器模型的輸出可以用此公式計算： Y=sign(0、3x1+0、3x2+0、3x3-0、4)。若輸入x1= 1，x2= 0，x3= 1，輸出 Y＝ 1

22、多層人工神經網絡包括：輸入層、隱藏層、輸出層

23、梯度下降算法中，當學習率設置得過小時，收斂過程將變得十分緩慢。

24、梯度下降算法中，當學習率設置的過大時，梯度可能會在最小值附近來回震盪，甚至可能無法收斂。

25、logistic迴歸問題中的損失函數L(a,y)=-(yln(a)+(1-y)ln(1-a))，說明：a爲樣本類別爲1的概率估計，y爲樣本的真實類別。當y=0，損失函數的單調性是 單調遞增 。

26、logistic迴歸問題中的損失函數L(a,y)=-(yln(a)+(1-y)ln(1-a))，說明：a爲樣本類別爲1的概率估計，y爲樣本的真實類別。當y=1，損失函數的單調性是 單調遞減

27、已知某個二類分類問題的混淆矩陣數據如下：TP=90，FN=20，TN=120，FP=10，則計算其召回率爲 9/11

28、已知某個二類分類問題的混淆矩陣數據如下：TP=90，FN=20，TN=120， FP=10，則計算其精度爲 9/10

29、已知簇1中有點P1，簇2中有點P2、P3，點P1、P2、P3之間的距離如下表所示，使用全鏈法（最長距離法），求簇1和簇2之間的距離爲 3

30、已知簇1中有點P1，簇2中有點P2、P3，點P1、P2、P3之間的距離如下表所示，使用單鏈法（最短距離法），求簇1和簇2之間的距離爲 2

31、已知購物籃數據如下：{a,d,e}、{a,b,d,e}、{a,c,d,e}、{d,e}、{c,d,e}、{c,d}、{a,b,c}，求項集 {a,b} 的支持度等於 2/7

32、已知購物籃數據如下：{a,d,e}、{a,b,d,e}、{a,c,d,e}、{d,e}、{c,d,e}、{c,d}、{a,b,c}，求規則 {d,e}→{a} 的置信度等於 3/5

33、已知購物籃數據如下：{a,d,e}、{a,b,d,e}、{a,c,d,e}、{d,e}、{c,d,e}、{c,d}、{a,b,c}，求規則 {d,e}→{a} 的支持度等於 3/7

判斷

1、通常，信用卡盜刷的交易記錄在全體信用卡交易的事務數據中，可以視爲是離羣點。√

2、離羣點可以是合法的數據對象或值。√

3、數據中出現遺漏值的原因，可能是信息沒有收集到，或者屬性不適用於所有情況。√

4、維歸約和特徵子集選擇這兩種操作都可以達到降低數據維度的效果。√

5、對變量進行標準化/規範化，就是創建一個新的變量，它具有均值0和標準差0。×

6、訓練誤差，是分類模型在訓練記錄上誤分類樣本的比例；泛化誤差，是分類模型在未
知的測試記錄上的期望誤差。√

7、出現擬合不足的原因是模型尚未學習到數據的真實結構。√

8、當決策樹很小時，訓練和檢驗誤差都很大，這種情況稱爲模型過分擬合×

9、當決策樹的規模變得太大時，即使訓練誤差還在繼續降低，但是檢驗誤差開始增大，導致模型擬合不足。×

10、導致過分擬合的原因包括：訓練數據中存在噪聲、訓練數據中缺乏代表性樣本。√

11、線性支持向量機是基於“最大邊緣”原理，即希望實現分類器邊緣最大化。√

12、線性支持向量機，在求解分類器邊緣最大化的過程中，不需要滿足將兩類訓練樣本正確分開的前提。×

13、實現分類器邊緣最大化，可以使得新的測試數據被錯分的機率儘可能小，從而使得分類器的泛化能力最大化。√

14、線性支持向量機的求解是一個凸二次優化問題，不能保證找到全局最優解。×

15、對存在數據污染、近似線性分類的情況, 要求分類器將所有訓練數據都準確分類，不會導致過擬合。×

16、對存在數據污染、近似線性分類的情況,可以使用軟邊緣支持向量機。√

17、軟間隔支持向量機通過引入鬆弛變量、懲罰因子，在一定程度上允許錯誤分類樣本，以增大間隔距離。在分類準確性與泛化能力上尋求一個平衡點。√

18、對非線性可分的問題，可以利用核變換，把原樣本映射到某個高維特徵空間，使得原本在低維特徵空間中非線性可分的樣本，在新的高維特徵空間中變得線性可分。√

19、軟間隔支持向量機的求解，可以證找到全局最優解。非線性支持向量機的求解，可以證找到全局最優解。√

20、支持向量機的工作原理決定了，該算法只能解決二分問題，不能解決多類分類問題。×

21、ROC曲線下方的面積AUC越大，說明分類器性能越好。√

22、ROC曲線的縱軸是真正率，橫軸是假正率。√

23、折交叉檢驗中，每個樣本有1次被當作測試樣本，有6次被當作訓練樣本。×

24、K均值聚類的算法中，參數K就是希望得到的簇的數目。√

25、K均值聚類的算法中，K個初始質心可以隨機選擇。√

26、每次簇的質心更新後，將每個點指派到最遠的質心。×

27、均值聚類的算法中，隨機選取的初始質心，一定可以保證得到好的聚類結果。×

28、對同一批數據進行兩次K均值聚類，如果其中一次聚類結果的SSE更小，則說明這次聚類效果更好。√

29、K均值聚類容易受到離羣點的影響。並且擅長處理非球形簇、不同尺寸和不同密度的簇。×

30、如果{a,d,e}是頻繁項集，則{a,d}一定也是頻繁項集。√

31、如果{a,d,e}是非頻繁的，則{a,b,d,e}也一定是非頻繁的。√

簡答

1、簡述支持向量機的“最大邊緣”原理。（即可分的線性SVM原理）

即追求分類器的泛化能力最大化。即希望所找到的決策邊界，在滿足將兩類數據點正確的分開的前提下，對應的分類器邊緣最大。這樣可以使得新的測試數據被錯分的機率儘可能小。

2、簡述軟邊緣支持向量機的基本工作原理。

對存在數據污染、近似線性分類的情況，可能並不存在一個最優的線性決策超平面；當存在噪聲數據時，爲保證所有訓練數據的準確分類，可能會導致過擬合。因此，需要允許有一定程度“錯分”，又有較大分界區域的最優決策超平面，即軟間隔支持向量機。

軟間隔支持向量機通過引入鬆弛變量、懲罰因子，在一定程度上允許錯誤分類樣本，以增大間隔距離。在分類準確性與泛化能力上尋求一個平衡點。

3、簡述非線性支持向量機的基本工作原理。

對非線性可分的問題，可以利用核變換，把原樣本映射到某個高維特徵空間，使得原本在低維特徵空間中非線性可分的樣本，在新的高維特徵空間中變得線性可分，並使用線性支持向量機進行分類。

4、簡述K均值算法的步驟。選擇1個方面論述K均值算法可能遇到的問題及如何解決。

（1）步驟
首先選擇K個初始質心，其中K是用戶指定的參數，即所期望的簇的個數。每個點指派到最近的質心，而指派到一個質心的點集爲一個簇。然後，根據指派到簇的點，更新每個簇的質心。重複指派和更新步驟，直到簇不發生變化，或等價的，直到質心不發生變化。

（2）問題與解決方法
①不同的初始質心將收斂得到不同的目標函數，可能只能達到局部最優解；隨機選取初始質心，拙劣的初始質心，可能導致很糟糕的聚類結果。

多次運行，選取最小的SSE
採用小部分數據，並進行層次聚類得到初始質心
選擇多於K個的初始質心，並在其中選出K個分佈廣泛的作爲初始質心。

②可能產生空簇

選擇一個距離當前任何質心最遠的點作爲替補質心（消除當前對總平方誤差影響最大的點）
從具有最大SSE的簇中選擇一個替補的質心（分裂簇並降低聚類的總SSE）

③容易受到離羣點的影響

提前刪除離羣點
在後處理時識別離羣點

④不能處理非球形簇、不同尺寸和不同密度的簇

生產多個初始的簇，再將其中部分簇進行合併

5、以決策樹算法爲例，說明什麼是模型過分擬合？模型過分擬合的原因有哪些？

（1）當決策樹很小時，訓練和檢驗誤差都很大，這種情況稱爲模型擬合不足。出現擬合不足的原因是模型尚未學習到數據的真實結構。
（2）當決策樹的規模變得太大時，即使訓練誤差還在繼續降低，但是檢驗誤差開始增大，導致模型過分擬合。

過分擬合的原因
（1）噪聲
（2）缺乏代表性樣本

6、屬性的類型有哪4種？對每種屬性類型各自有意義的運算有哪些？

（1）類型

標稱（Nominal）
Examples:郵編、僱員ID
序數（Ordinal）
Examples:成績（優良差）、街道號碼
區間（Interval）
Examples:日期、溫度
比率（Ratio）
Examples:絕對溫度、長度、年齡（出生年月屬於第三種）、計數

（2）性質

Distinctness（相異性）:＝ ≠
Order（序）：< >
Addition（加法）：+ -
Multiplication（乘法）：* /

標稱類型具有性質①，序數類型具有性質①、②，區間類型具有性質①、②、③，比率類型具有性質①、②、③、④。

計算

1、樸素貝葉斯分類

（1）該數據集中，分類爲“yes”“no”的先驗概率各自是多少？0.6、0.4

（2）已知待分類的測試樣本X=（Attribute1= V1c, Attribute2= V2c）計算以下條件概率：（答案請表示爲分數b/a；b/a約分爲最簡形式）

P(Attribute1= V1c |yes)= 1/2

P(Attribute1= V1c |no)= 1/4

P(Attribute2= V2c |yes)= 1/2

P(Attribute2= V2c |no)= 1/4

P(Attribute1= V1c, Attribute2= V2c |yes) = 1/4

P(Attribute1= V1c, Attribute2= V2c |no) = 1/16

（3）已知待分類的測試樣本X=（Attribute1= V1c, Attribute2= V2c）。後驗概率P(no|X)、P(yes|X) 各自是多少？（答案請表示爲分數b/a；b/a約分爲最簡形式）

P(yes|Attribute1=V1c,Attribute2=V2c)=3/20（說明：忽略分母1/P(X)）

P(no |Attribute1=V1c,Attribute2=V2c)=1/40（說明：忽略分母1/P(X)）

（4）已知訓練數據集如表1。已知待分類的測試樣本X=（Attribute1= V1c, Attribute2= V2c）。該測試樣本被分成哪一類？Yes

2、計算數據集的熵，計算劃分的期望信息

（1）該數據中：

P（Yes）= 0.6
P（No）= 0.4
Info（D）＝ I(6,4)

（2）若以Attribute1爲分裂屬性，將數據集分成三個子集D1、D2、D3，分別對應Attribute1=V1a，Attribute1=V1b，Attribute1=V1c。三個子集的樣本數量與原始數據集的比例分別爲0.4、0.2、0.4

（3）若以Attribute1爲分裂屬性，將數據集分成三個子集D1、D2、D3，分別對應Attribute1=V1a，Attribute1=V1b，Attribute1=V1c。三個子集的熵分別爲 I(1,3)、I(2,0)、I(3,1)

（4）若以Attribute1爲分裂屬性，將數據集分成三個子集D1、D2、D3，分別對應Attribute1=V1a，Attribute1=V1b，Attribute1=V1c。該劃分的期望信息爲 (2/5)*I(1,3)+(1/5)*I(2,0)+(2/5)*I(3,1)

（5）若以Attribute1爲分裂屬性，將數據集分成三個子集D1、D2、D3，分別對應Attribute1=V1a，Attribute1=V1b，Attribute1=V1c。該劃分的信息增益爲I(6,4)-(2/5)*I(1,3)-(1/5)*I(2,0)-(2/5)*I(3,1)

3、計算歐氏距離、KNN分類

（1）已知有5個訓練樣本，分別爲
樣本1，屬性爲：[2,0,2] 類別 0
樣本2，屬性爲：[1,5,2] 類別 1
樣本3，屬性爲：[3,2,3] 類別 1
樣本4，屬性爲：[3,0,2] 類別 0
樣本5，屬性爲：[1,0,6] 類別 0

有1個測試樣本，屬性爲：[1,0,2]

1、測試樣本到5個訓練樣本（樣本1、2、3、4、5）的歐氏距離依次爲：1、5、3、2、4

2、K=3，距離測試樣本最近的k個訓練樣本依次爲：樣本1、樣本4、樣本3

3、距離最近的k個訓練樣本類別依次爲：類別0、類別0、類別1

4、KNN算法得到的測試樣本的類別爲：類別0

如若本文整理有不對之處，請予以指正，謝謝。

學如逆水行舟，不進則退

【數據挖掘】期末考試備考複習寶典（一文搞定，期末考試不再擔憂）

單選

多選

填空

判斷

簡答

1、簡述支持向量機的“最大邊緣”原理。（即可分的線性SVM原理）

2、簡述軟邊緣支持向量機的基本工作原理。

3、簡述非線性支持向量機的基本工作原理。

4、簡述K均值算法的步驟。選擇1個方面論述K均值算法可能遇到的問題及如何解決。

5、以決策樹算法爲例，說明什麼是模型過分擬合？模型過分擬合的原因有哪些？

6、屬性的類型有哪4種？對每種屬性類型各自有意義的運算有哪些？

計算

1、樸素貝葉斯分類

2、計算數據集的熵，計算劃分的期望信息

3、計算歐氏距離、KNN分類

.Net 8.0 下的新RPC，IceRPC之試試的新玩法"打洞"

關於遊戲付費的一點想法

我通過CKA和CKS啦！

《最新出爐》系列入門篇-Python+Playwright自動化測試-42-強大的可視化追蹤利器Trace Viewer

大數據怎麼學？對大數據開發領域及崗位的詳細解讀，完整理解大數據開發領域技術體系

【建議收藏】使用 Netlify 教你免費將React/Vue項目上線！（前端自動化部署服務）

（近5w字）面向小白のVue全家桶開發電商管理系統項目總結文檔

小獅子前端Vue進階小冊開通食用指北

【春招&實習&秋招】前端學習の優質資料整理&心路歷程（已上岸）

【數字圖像處理】期末考試備考複習寶典（一文搞定，期末考試不再擔憂）

https://yachay.unat.edu.pe/blog/index.php?comment_area=format_blog&comment_component=blog&comment_co

linux以太網驅動總結

【數據挖掘】期末考試備考複習寶典 （一文搞定，期末考試不再擔憂）

單選

多選

填空

判斷

簡答

1、簡述支持向量機的“最大邊緣”原理。（即可分的線性SVM原理）

2、簡述軟邊緣支持向量機的基本工作原理。

3、簡述非線性支持向量機的基本工作原理。

4、簡述K均值算法的步驟。選擇1個方面論述K均值算法可能遇到的問題及如何解決。

5、以決策樹算法爲例，說明什麼是模型過分擬合？模型過分擬合的原因有哪些？

6、屬性的類型有哪4種？對每種屬性類型各自有意義的運算有哪些？

計算

1、樸素貝葉斯分類

2、計算數據集的熵，計算劃分的期望信息

3、計算歐氏距離、KNN分類

【數據挖掘】期末考試備考複習寶典（一文搞定，期末考試不再擔憂）