數據倉庫與數據挖掘複習題目

期末考試題型

  • 單項選擇題(每小題2分,共20分)
  • 填空題 (每空1分,共20分)
  • 簡答題(每題6分,共30)
  • 析題與計算題(30)

單選題
1. 某超市研究銷售紀錄數據後發現,買啤酒的人很大概率也會購買尿布,這種屬於數據挖掘的哪類問題?(A)
   A. 關聯規則發現       B. 聚類
   C. 分類               D. 自然語言處理
2. 以下兩種描述分別對應哪兩種對分類算法的評價標準? (A)
  (a)警察抓小偷,描述警察抓的人中有多少個是小偷的標準。
  (b)描述有多少比例的小偷給警察抓了的標準。
  A. Precision,  Recall  B. Recall,  Precision
  A. Precision,  ROC D. Recall,  ROC
3. 將原始數據進行集成、變換、維度規約、數值規約是在以下哪個步驟的任務?(C)
   A. 頻繁模式挖掘     B. 分類和預測     C. 數據預處理     D. 數據流挖掘
4. 當不知道數據所帶標籤時,可以使用哪種技術促使帶同類標籤的數據與帶其他標籤的數據相分離?(B)
  A. 分類       B. 聚類      C. 關聯分析      D. 隱馬爾可夫鏈
5. 什麼是KDD? (A)
  A. 數據挖掘與知識發現    B. 領域知識發現
  C. 文檔知識發現      D. 動態知識發現
6. 使用交互式的和可視化的技術,對數據進行探索屬於數據挖掘的哪一類任務?(A)
  A. 探索性數據分析    B. 建模描述
  C. 預測建模  D. 尋找模式和規則
7. 爲數據的總體分佈建模;把多維空間劃分成組等問題屬於數據挖掘的哪一類任務?(B)
  A. 探索性數據分析    B. 建模描述
  C. 預測建模  D. 尋找模式和規則
8. 建立一個模型,通過這個模型根據已知的變量值來預測其他某個變量值屬於數據挖掘的哪一類任務?(C)
  A. 根據內容檢索    B. 建模描述
  C. 預測建模  D. 尋找模式和規則
9. 用戶有一種感興趣的模式並且希望在數據集中找到相似的模式,屬於數據挖掘哪一類任務?(A)
  A. 根據內容檢索    B. 建模描述
  C. 預測建模  D. 尋找模式和規則                  
11.下面哪種不屬於數據預處理的方法? (D)
A變量代換   B離散化  C 聚集  D 估計遺漏值               
12. 假設12個銷售價格記錄組已經排序如下:5, 10, 11, 13, 15, 35, 50, 55, 72, 92, 204, 215 使用如下每種方法將它們劃分成四個箱。等頻(等深)劃分時,15在第幾個箱子內? (B)
A 第一個      B  第二個   C 第三個   D 第四個              
13.上題中,等寬劃分時(寬度爲50),15又在哪個箱子裏? (A)
A 第一個      B  第二個   C 第三個   D 第四個             
14.下面哪個不屬於數據的屬性類型:(D)
A 標稱    B 序數   C 區間     D相異                     
15. 在上題中,屬於定量的屬性類型是:(C)
A 標稱    B 序數    C區間   D 相異                     
16. 只有非零值才重要的二元屬性被稱作:( C )
A 計數屬性  B 離散屬性 C非對稱的二元屬性  D 對稱屬性      
17. 以下哪種方法不屬於特徵選擇的標準方法:         (D)
A嵌入  B 過濾    C  包裝   D  抽樣                        
18.下面不屬於創建新屬性的相關方法的是: (B)
A特徵提取    B特徵修改    C映射數據到新的空間    D特徵構造                
19. 考慮值集{1、2、3、4、5、90},其截斷均值(p=20%)是  (C)
A 2    B 3  C 3.5     D 5                                  
20. 下面哪個屬於映射數據到新的空間的方法? (A)
A 傅立葉變換   B特徵加權   C 漸進抽樣  D維歸約       
21. 熵是爲消除不確定性所需要獲得的信息量,投擲均勻正六面體骰子的熵是: (B)
A 1比特  B 2.6比特   C  3.2比特  D 3.8比特               
22. 假設屬性income的最大最小值分別是12000元和98000元。利用最大最小規範化的方法將屬性的值映射到0至1的範圍內。對屬性income的73600元將被轉化爲:(D)
A 0.821   B 1.224   C 1.458  D 0.716               
23.假定用於分析的數據包含屬性age。數據元組中age的值如下(按遞增序):13,15,16,16,19,20,20,21,22,22,25,25,25,30,33,33,35,35,36,40,45,46,52,70, 問題:使用按箱平均值平滑方法對上述數據進行平滑,箱的深度爲3。第二個箱子值爲:(A)
A 18.3    B 22.6   C 26.8  D 27.9         
24. 考慮值集{12 24 33 2 4 55 68 26},其四分位數極差是:(A)
A 31    B 24     C 55    D 3                          
25. 一所大學內的各年紀人數分別爲:一年級200人,二年級160人,三年級130人,四年級110人。則年級屬性的衆數是: (A)
A 一年級    B二年級    C 三年級     D 四年級        
26. 下列哪個不是專門用於可視化時間空間數據的技術: (B)
A 等高線圖    B餅圖  C 曲面圖  D 矢量場圖             
27. 在抽樣方法中,當合適的樣本容量很難確定時,可以使用的抽樣方法是: (D)
A 有放回的簡單隨機抽樣   B無放回的簡單隨機抽樣  C分層抽樣 D 漸進抽樣
28. 數據倉庫是隨着時間變化的,下面的描述不正確的是 (C)
A. 數據倉庫隨時間的變化不斷增加新的數據內容;
B. 捕捉到的新數據會覆蓋原來的快照;
C. 數據倉庫隨事件變化不斷刪去舊的數據內容;
D. 數據倉庫中包含大量的綜合數據,這些綜合數據會隨着時間的變化不斷地進行重新綜合.
29. 關於基本數據的元數據是指: (D)
A. 基本元數據與數據源,數據倉庫,數據集市和應用程序等結構相關的信息;
B. 基本元數據包括與企業相關的管理方面的數據和信息;
C. 基本元數據包括日誌文件和簡歷執行處理的時序調度信息;
D. 基本元數據包括關於裝載和更新處理,分析處理以及管理方面的信息.
30. 下面關於數據粒度的描述不正確的是: (C)
A. 粒度是指數據倉庫小數據單元的詳細程度和級別;
B. 數據越詳細,粒度就越小,級別也就越高;
C. 數據綜合度越高,粒度也就越大,級別也就越高;
D. 粒度的具體劃分將直接影響數據倉庫中的數據量以及查詢質量.
31. 有關數據倉庫的開發特點,不正確的描述是: (A)
A. 數據倉庫開發要從數據出發;
B. 數據倉庫使用的需求在開發出去就要明確;
C. 數據倉庫的開發是一個不斷循環的過程,是啓發式的開發;
D. 在數據倉庫環境中,並不存在操作型環境中所固定的和較確切的處理流,數據倉庫中數據分析和處理更靈活,且沒有固定的模式
32. 在有關數據倉庫測試,下列說法不正確的是: (D)
A. 在完成數據倉庫的實施過程中,需要對數據倉庫進行各種測試.測試工作中要包括單元測試和系統測試.
B. 當數據倉庫的每個單獨組件完成後,就需要對他們進行單元測試.
C. 系統的集成測試需要對數據倉庫的所有組件進行大量的功能測試和迴歸測試.
D. 在測試之前沒必要制定詳細的測試計劃.
33. OLAP技術的核心是: (D)
A. 在線性;
B. 對用戶的快速響應;
C. 互操作性.
D. 多維分析;
34. 關於OLAP的特性,下面正確的是: (D)
(1)快速性 (2)可分析性 (3)多維性 (4)信息性 (5)共享性
A. (1) (2) (3)
B. (2) (3) (4)
C. (1) (2) (3) (4)
D. (1) (2) (3) (4) (5)
35. 關於OLAP和OLTP的區別描述,不正確的是: (C)
A. OLAP主要是關於如何理解聚集的大量不同的數據.它與OTAP應用程序不同.
B. 與OLAP應用程序不同,OLTP應用程序包含大量相對簡單的事務.
C. OLAP的特點在於事務量大,但事務內容比較簡單且重複率高.
D. OLAP是以數據倉庫爲基礎的,但其最終數據來源與OLTP一樣均來自底層的數據庫系統,兩者面對的用戶是相同的.
36. OLAM技術一般簡稱爲”數據聯機分析挖掘”,下面說法正確的是: (D)
A. OLAP和OLAM都基於客戶機/服務器模式,只有後者有與用戶的交互性;
B. 由於OLAM的立方體和用於OLAP的立方體有本質的區別.
C. 基於WEB的OLAM是WEB技術與OLAM技術的結合.
D. OLAM服務器通過用戶圖形藉口接收用戶的分析指令,在元數據的知道下,對超級立方體作一定的操作.
37. 關於OLAP和OLTP的說法,下列不正確的是: (A)
A. OLAP事務量大,但事務內容比較簡單且重複率高.
B. OLAP的最終數據來源與OLTP不一樣.
C. OLTP面對的是決策人員和高層管理人員.
D. OLTP以應用爲核心,是應用驅動的.
38. 設X={1,2,3}是頻繁項集,則可由X產生__(C)__個關聯規則。
A、4 B、5 C、6 D、7    
40. 概念分層圖是__(B)__圖。
A、無向無環 B、有向無環 C、有向有環 D、無向有環
41. 頻繁項集、頻繁閉項集、最大頻繁項集之間的關係是: (C)
A、頻繁項集 頻繁閉項集 =最大頻繁項集
B、頻繁項集 = 頻繁閉項集 最大頻繁項集
C、頻繁項集 頻繁閉項集 最大頻繁項集
D、頻繁項集 = 頻繁閉項集 = 最大頻繁項集
42. 考慮下面的頻繁3-項集的集合:{1,2,3},{1,2,4},{1,2,5},{1,3,4},{1,3,5},{2,3,4},{2,3,5},{3,4,5}假定數據集中只有5個項,採用 合併策略,由候選產生過程得到4-項集不包含(C)
A、1,2,3,4 B、1,2,3,5 C、1,2,4,5 D、1,3,4,5
43.下面選項中t不是s的子序列的是  ( C )
A、s=<{2,4},{3,5,6},{8}> t=<{2},{3,6},{8}>
B、s=<{2,4},{3,5,6},{8}> t=<{2},{8}>
C、s=<{1,2},{3,4}> t=<{1},{2}>
D、s=<{2,4},{2,4}> t=<{2},{4}>
44. 在圖集合中發現一組公共子結構,這樣的任務稱爲 ( B )
A、頻繁子集挖掘 B、頻繁子圖挖掘 C、頻繁數據項挖掘 D、頻繁模式挖掘
45. 下列度量不具有反演性的是 (D)
A、 係數 B、機率 C、Cohen度量 D、興趣因子
46. 下列__(A)__不是將主觀信息加入到模式發現任務中的方法。
A、與同一時期其他數據對比
B、可視化
C、基於模板的方法
D、主觀興趣度量
47. 下面購物籃能夠提取的3-項集的最大數量是多少(C)
ID 購買項
1 牛奶,啤酒,尿布
2 麪包,黃油,牛奶
3 牛奶,尿布,餅乾
4 麪包,黃油,餅乾
5 啤酒,餅乾,尿布
6 牛奶,尿布,麪包,黃油
7 麪包,黃油,尿布
8 啤酒,尿布
9 牛奶,尿布,麪包,黃油
10 啤酒,餅乾
A、1 B、2 C、3 D、4
48. 以下哪些算法是分類算法,A,DBSCAN  B,C4.5  C,K-Mean D,EM   (B)
49. 以下哪些分類方法可以較好地避免樣本的不平衡問題, A,KNN B,SVM C,Bayes D,神經網絡  (A)   
50. 決策樹中不包含一下哪種結點,A,根結點(root node) B,內部結點(internal node) C,外部結點(external node) D,葉結點(leaf node) (C)
51. 不純性度量中Gini計算公式爲(其中c是類的個數) (A)
A,   B,  C,    D,      (A)
53. 以下哪項關於決策樹的說法是錯誤的 (C)
A. 冗餘屬性不會對決策樹的準確率造成不利的影響
B. 子樹可能在決策樹中重複多次 
C. 決策樹算法對於噪聲的干擾非常敏感 
D. 尋找最佳決策樹是NP完全問題
54. 在基於規則分類器的中,依據規則質量的某種度量對規則排序,保證每一個測試記錄都是由覆蓋它的“最好的”規格來分類,這種方案稱爲 (B)
A. 基於類的排序方案 
B. 基於規則的排序方案 
C. 基於度量的排序方案 
D. 基於規格的排序方案。 
55. 以下哪些算法是基於規則的分類器 (A)
A.  C4.5  B. KNN  C. Na?ve Bayes  D. ANN
56. 以下關於人工神經網絡(ANN)的描述錯誤的有 (A)
A,神經網絡對訓練數據中的噪聲非常魯棒 B,可以處理冗餘特徵  C,訓練ANN是一個很耗時的過程  D,至少含有一個隱藏層的多層神經網絡
57. 通過聚集多個分類器的預測來提高分類準確率的技術稱爲 (A)
A,組合(ensemble)   B,聚集(aggregate)  C,合併(combination)  D,投票(voting)
58. 簡單地將數據對象集劃分成不重疊的子集,使得每個數據對象恰在一個子集中,這種聚類類型稱作( B )

   A、層次聚類      B、劃分聚類      C、非互斥聚類      D、模糊聚類
59 在基本K均值算法裏,當鄰近度函數採用( A )的時候,合適的質心是簇中各點的中位數。
   A、曼哈頓距離      B、平方歐幾里德距離  C、餘弦距離      D、Bregman散度 
60.( C )是一個觀測值,它與其他觀測值的差別如此之大,以至於懷疑它是由不同的機制產生的。
   A、邊界點      B、質心      C、離羣點      D、核心點

填空題

第一章

(1)數據庫中的知識挖掘(KDD)包括以下七個步驟:                       

                                                 和             

(2) 數據挖掘的性能問題主要包括:                       和             

(3) 當前的數據挖掘研究中,最主要的三個研究方向是:                        和

            

(4) 在萬維網(WWW)上應用的數據挖掘技術常被稱爲:           

(5) 孤立點是指:                                                           

答案:

(1)數據清理,數據集成,數據選擇,數據變換,數據挖掘,模式評估,知識表示

(2)算法的效率、可擴展性和並行處理

(3)統計學、數據庫技術和機器學習

(4)WEB挖掘

(5)一些與數據的一般行爲或模型不一致的孤立數據

 

第二章

(1)進行數據預處理時所使用的主要方法包括:                       

                           

(2)處理噪聲數據的方法主要包括:                                      

            

(3)模式集成的主要問題包括:                                            

(4)數據概化是指:                                                 

(5)數據壓縮可分爲:                           兩種類型。

(6)進行數值歸約時,三種常用的有參方法是:                          

            

(7)數據離散度的最常用度量是                                     

答案:

  1. 數據清理、數據集成、數據變換、數據規約
  2. 分箱、聚類、計算機和人工檢查結合、迴歸
  3. 整合不同數據源中的元數據,實體識別問題
  4. 沿概念分層向上概化
  5. 有損壓縮,無損壓縮
  6. 線性迴歸方法,多元迴歸,對數線性模型
  7. 五數概括、中間四分位數區間、標準差

 

第三章

(1)概念分層有四種類型,分別是:                                   

                

(2)常用的四種興趣度的客觀度量是:                                   

                

(3)同時滿足                                  的關聯規則稱爲強關聯規則。

答案:

(1)模式分層,集合分組分層,操作導出的分層,基於規則的分層

(2)簡單性、確定性、實用性、新穎性

(3)最小置信度臨界值、最小支持度臨界值

 

第四章

(1)關聯規則挖掘中,兩個主要的興趣度度量是:                         

(2)Aprior算法包括                           兩個基本步驟

(3)項集的頻率是指                                 

(4)大型數據庫中的關聯規則挖掘包含兩個過程:                          

(5)根據規則中所處理的值類型,關聯規則可分爲:                          

(6)Apriori性質是指:                                             

(7)挖掘多維關聯規則的技術可以根據量化屬性的處理分爲三種基本方法:            

                          

(8)對於頻繁項集挖掘,在挖掘過程中使用的約束包括以下五種類型:           

                                                  

(9)在多維關聯規則挖掘中,我們搜索的不是頻繁項集,而是              

答案:

(1)支持度和置信度

(2)連接和剪枝

(3)包含項集的事務數

(4)找出所有頻繁項集、由頻繁項集產生強關聯規則

(5)布爾關聯規則、量化關聯規則

(6)頻繁項集的所有非空子集也必須是頻繁的

(7)量化屬性的靜態離散化、量化關聯規則、基於距離的關聯規則

(8)反單調的、單調的、簡潔的、可轉變的、不可轉變的

(9)頻繁謂詞集

 

第五章

(1)通過對數據進行預處理,可以提高分類和預測過程的                          

            

(2)防止分類中的過分適應的兩種方法分別是:                          

答案

(1)準確性、有效性和可伸縮性

(2)先剪枝、後剪枝

 

第六章

(1)在數據挖掘中,常用的聚類算法包括:                                    、基於網格的方法和基於模型的方法。

(2)聚類分析常作爲一個獨立的工具來獲得                                     

(3)一個好的聚類分析方法會產生高質量的聚類,具有兩個特徵:                   

                    

(4)許多基於內存的聚類算法所常用的兩種數據結構是                          

(5)基於網格的聚類方法的優點是:                   

(6)孤立點產生的主要原因包括:                               

(7)在基於統計的孤立點檢測中,常用於不一致性檢驗的參數包括:           

                          

答案:

(1)劃分方法、層次的方法、基於密度的方法

(2)數據分佈的情況

(3)高類內相似度、低類間相似度

(4)數據矩陣、相異度矩陣

(5)處理數度快

(6)度量或執行錯誤、數據變異的結果

(7)數據分佈、分佈參數、預期的孤立點數

 

問答題

    1. 何謂數據挖掘?它有哪些方面的功能?

從大量的、不完全的、有噪聲的、模糊的、隨機的數據中,提取隱含在其中的、人們事先不知道的、但又是潛在有用的信息和知識的過程稱爲數據挖掘。相關的名稱有知識發現、數據分析、數據融合、決策支持等。

數據挖掘的功能包括:概念描述、關聯分析、分類與預測、聚類分析、趨勢分析、孤立點分析以及偏差分析等。

    1. 何謂數據倉庫?爲什麼要建立數據倉庫?

數據倉庫是一種新的數據處理體系結構,是面向主題的、集成的、不可更新的(穩定性)、隨時間不斷變化(不同時間)的數據集合,爲企業決策支持系統提供所需的集成信息。

建立數據倉庫的目的有3個:

一是爲了解決企業決策分析中的系統響應問題,數據倉庫能提供比傳統事務數據庫更快的大規模決策分析的響應速度。

二是解決決策分析對數據的特殊需求問題。決策分析需要全面的、正確的集成數據,這是傳統事務數據庫不能直接提供的。

三是解決決策分析對數據的特殊操作要求。決策分析是面向專業用戶而非一般業務員,需要使用專業的分析工具,對分析結果還要以商業智能的方式進行表現,這是事務數據庫不能提供的。

    1. 何謂粒度?它對數據倉庫有什麼影響?按粒度組織數據的方式有哪些?

粒度是指數據倉庫的數據單位中保存數據細化或綜合程度的級別。粒度影響存放在數據倉庫中的數據量的大小,同時影響數據倉庫所能回答查詢問題的細節程度。按粒度組織數據的方式主要有:

      • 簡單堆積結構
      • 輪轉綜合結構
      • 簡單直接結構
      • 連續結構
    • 何謂聚類?它與分類有什麼異同?

聚類是將物理或抽象對象的集合分組成爲多個類或簇(cluster)的過程,使得在同一個簇中的對象之間具有較高的相似度,而不同簇中的對象差別較大。

聚類與分類不同,聚類要劃分的類是未知的,分類則可按已知規則進行;聚類是一種無指導學習,它不依賴預先定義的類和帶類標號的訓練實例,屬於觀察式學習,分類則屬於有指導的學習,是示例式學習。

    1. 分類知識的發現方法主要有哪些?分類過程通常包括哪兩個步驟?

分類規則的挖掘方法通常有:決策樹法、貝葉斯法、人工神經網絡法、粗糙集法和遺傳算法。分類的過程包括2步:首先在已知訓練數據集上,根據屬性特徵,爲每一種類別找到一個合理的描述或模型,即分類規則;然後根據規則對新數據進行分類。

    1. 什麼是決策樹?如何用決策樹進行分類?

決策樹是用樣本的屬性作爲結點,用屬性的取值作爲分支的樹結構。它是利用信息論原理對大量樣本的屬性進行分析和歸納而產生的。決策樹的根結點是所有樣本中信息量最大的屬性。樹的中間結點是以該結點爲根的子樹所包含的樣本子集中信息量最大的屬性。決策樹的葉結點是樣本的類別值。

決策樹用於對新樣本的分類,即通過決策樹對新樣本屬性值的測試,從樹的根結點開始,按照樣本屬性的取值,逐漸沿着決策樹向下,直到樹的葉結點,該葉結點表示的類別就是新樣本的類別。決策樹方法是數據挖掘中非常有效的分類方法。

    1. 簡述ID3算法的基本思想及其主算法的基本步驟。

首先找出最有判別力的因素,然後把數據分成多個子集,每個子集又選擇最有判別力的因素進一步劃分,一直進行到所有子集僅包含同一類型的數據爲止。最後得到一棵決策樹,可以用它來對新的樣例進行分類。

主算法包括如下幾步:

①從訓練集中隨機選擇一個既含正例又含反例的子集(稱爲窗口)

②用“建樹算法”對當前窗口形成一棵決策樹;

③對訓練集(窗口除外)中例子用所得決策樹進行類別判定,找出錯判的例子;

④若存在錯判的例子,把它們插入窗口,重複步驟②,否則結束。

    1. 噪聲數據的產生原因有哪些?

(1)數據採集設備有問題

(2)在數據錄入過程中發生了人爲或計算機錯誤

(3)數據傳輸過程中發生錯誤

(4)由於命名規則或數據代碼不同而引起的不一致。

    1. 遺傳算法與傳統尋優算法相比有什麼特點?
      • 遺傳算法爲羣體搜索,有利於尋找到全局最優解;
      • 遺傳算法採用高效有方向的隨機搜索,搜索效率高;
      • 遺傳算法處理的對象是個體而不是參變量,具有廣泛的應用領域;
      • 遺傳算法使用適應值信息評估個體,不需要導數或其他輔助信息,運算速度快,適應性好;
      • 遺傳算法具有隱含並行性,具有更高的運行效率。
    2. 請解釋一下在數據挖掘關聯規則中什麼是支持度和可信度,以及關聯規則。

       支持度:規則AB的支持度指的是所有事件中AB同地發生的的概率,即P(AB),是AB同時發生的次數與事件總次數之比。支持度是對關聯規則重要性的衡量。

       可信度:規則AB的可信度指的是包含A項集的同時也包含B項集的條件概率P(B|A),是AB同時發生的次數與A發生的所有次數之比。可信度是對關聯規則的準確度的衡量。

關聯規則:同時滿足最小支持度閾值和最小可信度閾值的規則稱之爲關聯規則。

 

分析與計算題

1. 假定用於分析的數據包含屬性age。數據元組中age的值如下(按遞增序):13,15,16,16,19,20,20,21,22,22,25,25,25,25,30,33,33,33,35,35,35,35,36,40,45,46,52,70。

(a) 使用按箱平均值平滑對以上數據進行平滑,箱的深度爲3。

(b) 該數據的均值是多少,中位數是多少?

(c) 使用 min-max規範化,將age值35轉換到[0.0,1.0]區間。

答:(a)已知數據元組中 age  的值如下(按遞增序):

13,15,16,16,19,20,20,21,22,22,25,25,25,25,30,33,33,33,35,35,35,35,36,40,45,46,52,70。

且箱的深度爲 3,劃分爲(等頻)箱:

箱 1:13,15,16

箱 2:16,19,20

箱 3:20,21,22

箱 4:22,25,25

箱 5:25,25,30

箱 6:33,33,33

箱 7:35,35,35

箱 8:35,36,40

箱 9:45,46,52

箱 10:70

用箱均值光滑:

箱 1:15,15,15

箱 2:18,18,18

箱 3:21,21,21

箱 4:24,24,24

箱 5:27,27,37

箱 6:33,33,33

箱 7:35,35,35

箱 8:37,37,37

箱 9:48,48,48

箱 10:70;

(b)答:

 

(c)答:

 

2. 給定兩個向量對象,分別表示爲 p1(22,1,42,10),p2(20,0,36,8): 

(a)  計算兩個對象之間的歐幾里得距離; 

(b)  計算兩個對象之間的曼哈頓距離 ;

(c)  計算兩個對象之間的切比雪夫距離 ;

(d)  計算兩個對象之間的閔可夫斯基距離,用 x=3。

答:(a)  計算兩個對象之間的歐幾里得距離:

 

(b)  計算兩個對象之間的曼哈頓距離:

 

  1. 計算兩個對象之間的閔可夫斯基距離,其中參數 r=3:

 

3. 數據庫有4筆交易,設minsup=60%, minconf=80%。

 

用 Apriori 算法找出所有頻繁項集,列出所有關聯規則。

 

 

 

 

 

 

4. 給定以下數據集(2 ,4,10,12,15,3,21),進行K-Means聚類,設定聚類數爲2個,即k=2。在給出的數據集中隨機選擇的兩個對象作爲初始簇中心,分別是m1=2,m2=4,相似度按照歐式距離計算。求:

(1)第一次循環(迭代)結束時,劃分所得的兩個簇分別是多少?

(2)第一次循環(迭代)結束後,進行下一次循環(迭代)時簇心是多少?

解:(1)當m1=2時,樣本(2 ,4,10,12,15,3,21)距離該代表點的距離分別爲2,8,10,13,1,19。 

當m2=4時,樣本(2 ,4,10,12,15,3,21)距離該代表點的距離分別爲-2,6,8,11,-1,17。 

最小距離是1或者-1將該元素放入m1=2的聚類中,則該聚類爲(2,3);

另一個聚類m2=4爲(4,10,12,15,21)。

(2)完成數據樣本的劃分之後,對於每一個聚類,計算其中所有數據樣本的均值,並且將其作爲該聚類的新的代表點,由此得到k個均值代表點:m1=2.5,m2=12。

 

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章