【數據挖掘】期末考試備考複習寶典 (一文搞定,期末考試不再擔憂)

項目暫時告一段落,複習複習!要期末考試了,整理一份寶典備考。文章內容由淺葉輕舟弟弟提供,覺得不錯的話,點贊支持一波!

單選

1、下列選項哪個描述的是“訓練樣本”(B)

A、在電子病歷數據中,每一個樣本有八個檢測指標,但是沒有醫生診斷結果
B、在電子病歷數據中,每一個樣本有八個檢測指標,每個樣本還有一個醫生診斷結果
C、在電子病歷數據中,每一個樣本有八個檢測指標,但是沒有醫生診斷結果;算法自動得到這些樣本的診斷結果
D、在電子病歷數據中,每一個樣本有八個檢測指標,醫生根據這八個指標做出診斷

2、下列選項哪個描述的是“分類”(C)

A、在電子病歷數據中,每一個樣本有八個檢測指標,但是沒有醫生診斷結果
B、在電子病歷數據中,每一個樣本有八個檢測指標,每個樣本還有一個醫生診斷結果
C、在電子病歷數據中,每一個樣本有八個檢測指標,但是沒有醫生診斷結果;算法自動得到這些樣本的診斷結果
D、在電子病歷數據中,每一個樣本有八個檢測指標,醫生根據這八個指標做出診斷

3、列哪個選項描述的不是“聚類”(C)

A、搜索引擎返回的文檔中,將相似的文檔聚合成一類
B、電子商務網站數據中,購物歷史相似的用戶自動聚合成一組
C、電子商務網站數據中,分析出用戶常常一起購買的商品,組合到一起促銷
D、在電子病歷數據中,將體檢指標相似的樣本自動聚合成一組

4、在MATLAB語言中,以下說法中錯誤的是

A、MATLAB中默認的數據類型是double
B、3<5的運算結果是logical類型
C、變量Abc和abc是代表兩個相同的變量
D、灰度圖的圖像矩陣中的數據是uint8類型

5、數據對象的別名不包括(D)

A、記錄 B、樣本 C、向量 D、特徵

6、屬性的別名不包括(B)

A、特徵 B、樣本 C、字段 D、維

7、下列說法不正確的是(C)

A、測量標度是將數值或符號與對象的屬性相關聯的規則
B、屬性的性質不必與用來度量它的值的性質完全相同
C、即使在不同的應用問題中,同一個物理量也必然使用同一種類型的屬性來描述
D、屬性類型可以劃分爲:標稱、序數、區間、比率這四種

8、某辦公自動化系統中,採用出生年份表示僱員的年齡,這是什麼類型屬性(C)

A、標稱 B、序數 C、區間 D、比率

9、某學籍管理系統中,採用百分制表示學生分數,這是什麼類型屬性(D)

A、標稱 B、序數 C、區間 D、比率

10、描述一個數據集的屬性主要不包括(A)

A、置信度 B、維度 C、分辨率 D、稀疏性

11、下列說法中錯誤的是(D)

A、噪聲是測量誤差的隨機部分
B、數據中出現遺漏值的原因,可能是信息沒有收集到,或者屬性不適用於所有情況。
C、通常由於不同的數據源合併時造成重複數據的產生
D、離羣點不可能是合法的數據對象或值

12、下列選項中不屬於數據預處理方法的是(B)

A、維歸約 B、聚類 C、離散化與二元化 D、屬性變換

13、下列說法中錯誤的是(B)

A、維歸約是通過創建新屬性,將一些舊屬性合併在一起來降低數據集的維度值
B、通過聚集操作,對象或屬性羣的行爲通常比單個對象或屬性的行爲更加穩定;並且聚集操作不會丟失有趣的細節
C、之所以可以進行特徵子集選擇,是因爲特徵中通常包含冗餘特徵和不相關特徵
D、特徵創建方法包括:特徵提取、映射數據到新的空間、特徵構造

多選

1、引發人們對數據挖掘開展研究的挑戰性問題包括(ABCDE)

A、可伸縮
B、高維性
C、異種數據和複雜數據
D、數據的所有權與分佈
E、非傳統的分析

2、下列哪些屬於預測性任務(BC)

A、關聯規則發現 B、分類 C、迴歸 D、聚類

3、下列哪些屬於描述性任務(AD)

A、關聯規則發現 B、分類 C、迴歸 D、聚類

填空

1、執行完matlab命令“a=[1, 2; 2, 3; 6, 10]”之後,a中的數據有 32

2、執行完matlab命令“a=[2:3:10]”之後,a中的數據依次爲2、5、8

3、執行完matlab命令“a=[1, 2; 4, 3; 6, 10]”之後,a(3,2)的值爲10

4、執行完matlab命令X=[3 2 0; -5 6 1]; indices =find(X>=1) 之後,變量indices中的值依次是1、3、4、6

5、已知X=[3 2 0 4; -5 6 1 2]; 執行完matlab命令“X(:,2)=[ ]”之後,X矩陣有 23

6、分析以下matlab命令的執行結果:

x=[3,2,1,0] 
a=length(x)
b=size(x,1)
c=size(x,2)
s=sum(x)

a 的值爲 4
b 的值爲 1
c 的值爲 4
s 的值爲 6

7、已知函數定義如下

function [y]=fun(x)    
if(x<-5)
	y=x*3;
elseif(x<=0)
	y=-x;
else
	y=x*2;
end
end

fun(-10) 的返回值爲 -30
fun(-5) 的返回值爲 5
fun(3) 的返回值爲 6

8、向量x=[3,2,3,1],y=[1,4,5,3],兩者之間的歐幾里得距離爲 4

9、x=[1,2,0,2,0],y=[2,2,2,0,2],兩者之間的夾角餘弦相似度爲 0.5

10、x=[1,3,0,2],y=[2,3,2,0],兩者之間的歐幾里得距離爲 3

11、x=[0,1,1,0,0],y=[1,1,0,0,1],兩者之間的Jaccard相似性係數爲0.25

12、x=[0,1,1,0,0],y=[1,1,0,0,1],兩者之間的簡單匹配係數爲 0.4

13、考試成績定義爲“優”、“良”、“中”、“差”四種,屬性“良”和“中”之間的相異度爲(答案可以寫成分數或小數形式,小數形式保留小數點後2位)0.33

14、數據的屬性已知,數據的類別也已知,這樣的數據叫做 訓練 樣本

15、數據的屬性已知,數據的類別未知,這樣的數據叫做 測試 樣本

16、已知一個數據集,其中有2個類的樣本,這2個類的樣本數量分別爲1、2,則該數據集的熵值爲 -(1/3)*log2(1/3)-(2/3)*log2(2/3)

17、已知一個數據集,其中有3個類的樣本,這3個類的樣本數量分別爲1、1、3,則該數據集的Classification Error爲 0.4

18、已知一個數據集,其中有2個類的樣本,這2個類的樣本數量分別爲1、4,則該數據集的 GINI 值爲 0.32

19、在神經元細胞中,樹突 是接受從其它神經元傳入的信息的入口。

20、在神經元細胞中,軸突 是把神經元興奮的信息傳出到其它神經元的出口。

21、感知器模型的輸出可以用此公式計算: Y=sign(0、3x1+0、3x2+0、3x3-0、4)。若輸入x1= 1,x2= 0,x3= 1,輸出 Y= 1

22、多層人工神經網絡包括:輸入層、隱藏層、輸出層

23、梯度下降算法中,當學習率設置得過 時,收斂過程將變得十分緩慢。

24、梯度下降算法中,當學習率設置的過 時,梯度可能會在最小值附近來回震盪,甚至可能無法收斂。

25、logistic迴歸問題中的損失函數L(a,y)=-(yln(a)+(1-y)ln(1-a)),說明:a爲樣本類別爲1的概率估計,y爲樣本的真實類別。當y=0,損失函數的單調性是 單調遞增

26、logistic迴歸問題中的損失函數L(a,y)=-(yln(a)+(1-y)ln(1-a)),說明:a爲樣本類別爲1的概率估計,y爲樣本的真實類別。當y=1,損失函數的單調性是 單調遞減

27、已知某個二類分類問題的混淆矩陣數據如下:TP=90,FN=20,TN=120,FP=10,則計算其召回率爲 9/11

28、已知某個二類分類問題的混淆矩陣數據如下:TP=90,FN=20,TN=120, FP=10,則計算其精度爲 9/10

29、已知簇1中有點P1,簇2中有點P2、P3,點P1、P2、P3之間的距離如下表所示,使用全鏈法(最長距離法),求簇1和簇2之間的距離爲 3

30、已知簇1中有點P1,簇2中有點P2、P3,點P1、P2、P3之間的距離如下表所示,使用單鏈法(最短距離法),求簇1和簇2之間的距離爲 2


31、已知購物籃數據如下:{a,d,e}、{a,b,d,e}、{a,c,d,e}、{d,e}、{c,d,e}、{c,d}、{a,b,c},求項集 {a,b} 的支持度等於 2/7

32、已知購物籃數據如下:{a,d,e}、{a,b,d,e}、{a,c,d,e}、{d,e}、{c,d,e}、{c,d}、{a,b,c},求規則 {d,e}→{a} 的置信度等於 3/5

33、已知購物籃數據如下:{a,d,e}、{a,b,d,e}、{a,c,d,e}、{d,e}、{c,d,e}、{c,d}、{a,b,c},求規則 {d,e}→{a} 的支持度等於 3/7

判斷

1、通常,信用卡盜刷的交易記錄在全體信用卡交易的事務數據中,可以視爲是離羣點。√

2、離羣點可以是合法的數據對象或值。√

3、數據中出現遺漏值的原因,可能是信息沒有收集到,或者屬性不適用於所有情況。√

4、維歸約和特徵子集選擇這兩種操作都可以達到降低數據維度的效果。√

5、對變量進行標準化/規範化,就是創建一個新的變量,它具有均值0和標準差0。×

6、訓練誤差,是分類模型在訓練記錄上誤分類樣本的比例;泛化誤差,是分類模型在未
知的測試記錄上的期望誤差。√

7、出現擬合不足的原因是模型尚未學習到數據的真實結構。√

8、當決策樹很小時,訓練和檢驗誤差都很大,這種情況稱爲模型過分擬合×

9、當決策樹的規模變得太大時,即使訓練誤差還在繼續降低,但是檢驗誤差開始增大,導致模型擬合不足。×

10、導致過分擬合的原因包括:訓練數據中存在噪聲、訓練數據中缺乏代表性樣本。√

11、線性支持向量機是基於“最大邊緣”原理,即希望實現分類器邊緣最大化。√

12、線性支持向量機,在求解分類器邊緣最大化的過程中,不需要滿足將兩類訓練樣本正確分開的前提。×

13、實現分類器邊緣最大化,可以使得新的測試數據被錯分的機率儘可能小,從而使得分類器的泛化能力最大化。√

14、線性支持向量機的求解是一個凸二次優化問題,不能保證找到全局最優解。×

15、對存在數據污染、近似線性分類的情況, 要求分類器將所有訓練數據都準確分類,不會導致過擬合。×

16、對存在數據污染、近似線性分類的情況,可以使用軟邊緣支持向量機。√

17、軟間隔支持向量機通過引入鬆弛變量、懲罰因子,在一定程度上允許錯誤分類樣本,以增大間隔距離。在分類準確性與泛化能力上尋求一個平衡點。√

18、對非線性可分的問題,可以利用核變換,把原樣本映射到某個高維特徵空間,使得原本在低維特徵空間中非線性可分的樣本,在新的高維特徵空間中變得線性可分。√

19、軟間隔支持向量機的求解,可以證找到全局最優解。非線性支持向量機的求解,可以證找到全局最優解。√

20、支持向量機的工作原理決定了,該算法只能解決二分問題,不能解決多類分類問題。×

21、ROC曲線下方的面積AUC越大,說明分類器性能越好。√

22、ROC曲線的縱軸是真正率,橫軸是假正率。√

23、折交叉檢驗中,每個樣本有1次被當作測試樣本,有6次被當作訓練樣本。×

24、K均值聚類的算法中,參數K就是希望得到的簇的數目。√

25、K均值聚類的算法中,K個初始質心可以隨機選擇。√

26、每次簇的質心更新後,將每個點指派到最遠的質心。×

27、均值聚類的算法中,隨機選取的初始質心,一定可以保證得到好的聚類結果。×

28、對同一批數據進行兩次K均值聚類,如果其中一次聚類結果的SSE更小,則說明這次聚類效果更好。√

29、K均值聚類容易受到離羣點的影響。並且擅長處理非球形簇、不同尺寸和不同密度的簇。×

30、如果{a,d,e}是頻繁項集,則{a,d}一定也是頻繁項集。√

31、如果{a,d,e}是非頻繁的,則{a,b,d,e}也一定是非頻繁的。√

簡答

1、簡述支持向量機的“最大邊緣”原理。(即可分的線性SVM原理)

即追求分類器的泛化能力最大化。即希望所找到的決策邊界,在滿足將兩類數據點正確的分開的前提下,對應的分類器邊緣最大。這樣可以使得新的測試數據被錯分的機率儘可能小。

2、簡述軟邊緣支持向量機的基本工作原理。

對存在數據污染、近似線性分類的情況,可能並不存在一個最優的線性決策超平面;當存在噪聲數據時,爲保證所有訓練數據的準確分類,可能會導致過擬合。因此,需要允許有一定程度“錯分”,又有較大分界區域的最優決策超平面,即軟間隔支持向量機。

軟間隔支持向量機通過引入鬆弛變量、懲罰因子,在一定程度上允許錯誤分類樣本,以增大間隔距離。在分類準確性與泛化能力上尋求一個平衡點。

3、簡述非線性支持向量機的基本工作原理。

對非線性可分的問題,可以利用核變換,把原樣本映射到某個高維特徵空間,使得原本在低維特徵空間中非線性可分的樣本,在新的高維特徵空間中變得線性可分,並使用線性支持向量機進行分類。

4、簡述K均值算法的步驟。選擇1個方面論述K均值算法可能遇到的問題及如何解決。

(1)步驟
首先選擇K個初始質心,其中K是用戶指定的參數,即所期望的簇的個數。每個點指派到最近的質心,而指派到一個質心的點集爲一個簇。然後,根據指派到簇的點,更新每個簇的質心。重複指派和更新步驟,直到簇不發生變化,或等價的,直到質心不發生變化。

(2)問題與解決方法
①不同的初始質心將收斂得到不同的目標函數,可能只能達到局部最優解;隨機選取初始質心,拙劣的初始質心,可能導致很糟糕的聚類結果。

  • 多次運行,選取最小的SSE
  • 採用小部分數據,並進行層次聚類得到初始質心
  • 選擇多於K個的初始質心,並在其中選出K個分佈廣泛的作爲初始質心。

②可能產生空簇

  • 選擇一個距離當前任何質心最遠的點作爲替補質心(消除當前對總平方誤差影響最大的點)
  • 從具有最大SSE的簇中選擇一個替補的質心(分裂簇並降低聚類的總SSE)

③容易受到離羣點的影響

  • 提前刪除離羣點
  • 在後處理時識別離羣點

④不能處理非球形簇、不同尺寸和不同密度的簇

  • 生產多個初始的簇,再將其中部分簇進行合併

5、以決策樹算法爲例,說明什麼是模型過分擬合?模型過分擬合的原因有哪些?

(1)當決策樹很小時,訓練和檢驗誤差都很大,這種情況稱爲模型擬合不足。出現擬合不足的原因是模型尚未學習到數據的真實結構
(2)當決策樹的規模變得太大時,即使訓練誤差還在繼續降低,但是檢驗誤差開始增大,導致模型過分擬合。

過分擬合的原因
(1)噪聲
(2)缺乏代表性樣本

6、屬性的類型有哪4種?對每種屬性類型各自有意義的運算有哪些?

(1)類型

  • 標稱(Nominal)
    Examples:郵編、僱員ID

  • 序數(Ordinal)
    Examples:成績(優良差)、街道號碼

  • 區間(Interval)
    Examples:日期、溫度

  • 比率(Ratio)
    Examples:絕對溫度、長度、年齡(出生年月屬於第三種)、計數

(2)性質

  • Distinctness(相異性):=

  • Order(序):< >

  • Addition(加法):+ -

  • Multiplication(乘法):* /

標稱類型具有性質①,序數類型具有性質①、②,區間類型具有性質①、②、③,比率類型具有性質①、②、③、④。

計算

1、樸素貝葉斯分類

(1)該數據集中,分類爲“yes”“no”的先驗概率各自是多少?0.6、0.4

(2)已知待分類的測試樣本X=(Attribute1= V1c, Attribute2= V2c)計算以下條件概率:(答案請表示爲分數b/a;b/a約分爲最簡形式)

P(Attribute1= V1c |yes)= 1/2

P(Attribute1= V1c |no)= 1/4

P(Attribute2= V2c |yes)= 1/2

P(Attribute2= V2c |no)= 1/4

P(Attribute1= V1c, Attribute2= V2c |yes) = 1/4

P(Attribute1= V1c, Attribute2= V2c |no) = 1/16

(3)已知待分類的測試樣本X=(Attribute1= V1c, Attribute2= V2c)。後驗概率P(no|X)、P(yes|X) 各自是多少?(答案請表示爲分數b/a;b/a約分爲最簡形式)

P(yes|Attribute1=V1c,Attribute2=V2c)=3/20(說明:忽略分母1/P(X))

P(no |Attribute1=V1c,Attribute2=V2c)=1/40(說明:忽略分母1/P(X))

(4)已知訓練數據集如表1。已知待分類的測試樣本X=(Attribute1= V1c, Attribute2= V2c)。 該測試樣本被分成哪一類?Yes

2、計算數據集的熵,計算劃分的期望信息

(1)該數據中:

P(Yes)= 0.6
P(No)= 0.4
Info(D)= I(6,4)

(2)若以Attribute1爲分裂屬性,將數據集分成三個子集D1、D2、D3,分別對應Attribute1=V1a,Attribute1=V1b,Attribute1=V1c。三個子集的樣本數量與原始數據集的比例分別爲0.4、0.2、0.4

(3)若以Attribute1爲分裂屬性,將數據集分成三個子集D1、D2、D3,分別對應Attribute1=V1a,Attribute1=V1b,Attribute1=V1c。三個子集的熵分別爲 I(1,3)、I(2,0)、I(3,1)

(4)若以Attribute1爲分裂屬性,將數據集分成三個子集D1、D2、D3,分別對應Attribute1=V1a,Attribute1=V1b,Attribute1=V1c。該劃分的期望信息爲 (2/5)*I(1,3)+(1/5)*I(2,0)+(2/5)*I(3,1)

(5)若以Attribute1爲分裂屬性,將數據集分成三個子集D1、D2、D3,分別對應Attribute1=V1a,Attribute1=V1b,Attribute1=V1c。該劃分的信息增益爲I(6,4)-(2/5)*I(1,3)-(1/5)*I(2,0)-(2/5)*I(3,1)

3、計算歐氏距離、KNN分類

(1)已知有5個訓練樣本,分別爲
樣本1,屬性爲:[2,0,2] 類別 0
樣本2,屬性爲:[1,5,2] 類別 1
樣本3,屬性爲:[3,2,3] 類別 1
樣本4,屬性爲:[3,0,2] 類別 0
樣本5,屬性爲:[1,0,6] 類別 0

有1個測試樣本,屬性爲:[1,0,2]

1、測試樣本到5個訓練樣本(樣本1、2、3、4、5)的歐氏距離依次爲:1、5、3、2、4

2、K=3,距離測試樣本最近的k個訓練樣本依次爲:樣本1、樣本4、樣本3

3、距離最近的k個訓練樣本類別依次爲:類別0、類別0、類別1

4、KNN算法得到的測試樣本的類別爲:類別0

如若本文整理有不對之處,請予以指正,謝謝。

學如逆水行舟,不進則退
發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章