超全數據挖掘面試筆試題（附答案）

一、單選題（共80題）

( D )的目的縮小數據的取值範圍，使其更適合於數據挖掘算法的需要，並且能夠得到和原始數據相同的分析結果。

A.數據清洗 B.數據集成

C.數據變換 D.數據歸約

某超市研究銷售紀錄數據後發現，買啤酒的人很大概率也會購買尿布，這種屬於數據挖掘的哪類問題？(A)
A. 關聯規則發現 B. 聚類
C. 分類 D. 自然語言處理

以下兩種描述分別對應哪兩種對分類算法的評價標準？(A)
(a)警察抓小偷，描述警察抓的人中有多少個是小偷的標準。
(b)描述有多少比例的小偷給警察抓了的標準。
A. Precision,Recall B.Recall,Precision
A. Precision,ROC D. Recall,ROC

將原始數據進行集成、變換、維度規約、數值規約是在以下哪個步驟的任務？(C)
A. 頻繁模式挖掘 B. 分類和預測

C. 數據預處理 D. 數據流挖掘

當不知道數據所帶標籤時，可以使用哪種技術促使帶同類標籤的數據與帶其他標籤的數據相分離？(B)
A. 分類 B. 聚類

C. 關聯分析 D. 隱馬爾可夫鏈

建立一個模型，通過這個模型根據已知的變量值來預測其他某個變量值屬於數據挖掘的哪一類任務？(C)
A. 根據內容檢索 B. 建模描述
C. 預測建模 D. 尋找模式和規則

下面哪種不屬於數據預處理的方法？ (D)
A.變量代換 B.離散化

C.聚集 D.估計遺漏值

假設12個銷售價格記錄組已經排序如下：5, 10, 11, 13, 15, 35, 50, 55, 72, 92, 204, 215 使用如下每種方法將它們劃分成四個箱。等頻（等深）劃分時，15在第幾個箱子內？ (B)
A.第一個 B.第二個

C.第三個 D.第四個

下面哪個不屬於數據的屬性類型：(D)
A.標稱 B.序數

C.區間 D.相異

只有非零值才重要的二元屬性被稱作：( C )
A.計數屬性 B.離散屬性

C.非對稱的二元屬性 D.對稱屬性

以下哪種方法不屬於特徵選擇的標準方法： (D)
A.嵌入 B.過濾

C.包裝 D.抽樣

下面不屬於創建新屬性的相關方法的是： (B)
A.特徵提取 B.特徵修改

C.映射數據到新的空間 D.特徵構造

下面哪個屬於映射數據到新的空間的方法？ (A)
A.傅立葉變換 B.特徵加權

C.漸進抽樣 D.維歸約

假設屬性income的最大最小值分別是12000元和98000元。利用最大最小規範化的方法將屬性的值映射到0至1的範圍內。對屬性income的73600元將被轉化爲：(D)
A.0.821 B.1.224

C.1.458 D.0.716

一所大學內的各年紀人數分別爲：一年級200人，二年級160人，三年級130人，四年級110人。則年級屬性的衆數是： (A)
A.一年級 B.二年級

C.三年級 D.四年級

下列哪個不是專門用於可視化時間空間數據的技術：(B)
A.等高線圖 B.餅圖

C.曲面圖 D.矢量場圖

在抽樣方法中，當合適的樣本容量很難確定時，可以使用的抽樣方法是： (D)
A.有放回的簡單隨機抽樣

B.無放回的簡單隨機抽樣

C.分層抽樣

D 漸進抽樣

數據倉庫是隨着時間變化的,下面的描述不正確的是 (C)
A.數據倉庫隨時間的變化不斷增加新的數據內容
B.捕捉到的新數據會覆蓋原來的快照
C.數據倉庫隨事件變化不斷刪去舊的數據內容
D.數據倉庫中包含大量的綜合數據,這些綜合數據會隨着時間的變化不斷地進行重新綜合

下面關於數據粒度的描述不正確的是: (C)
A.粒度是指數據倉庫小數據單元的詳細程度和級別
B.數據越詳細,粒度就越小,級別也就越高
C.數據綜合度越高,粒度也就越大,級別也就越高
D.粒度的具體劃分將直接影響數據倉庫中的數據量以及查詢質量

有關數據倉庫的開發特點,不正確的描述是: (A)
A.數據倉庫開發要從數據出發
B.數據倉庫使用的需求在開發出去就要明確
C.數據倉庫的開發是一個不斷循環的過程,是啓發式的開發
D.在數據倉庫環境中,並不存在操作型環境中所固定的和較確切的處理流,數據倉庫中數據分析和處理更靈活,且沒有固定的模式

關於OLAP的特性,下面正確的是: (D)
(1)快速性 (2)可分析性 (3)多維性 (4)信息性 (5)共享性
A.(1) (2) (3)
B.(2) (3) (4)
C.(1) (2) (3) (4)
D.(1) (2) (3) (4) (5)

關於OLAP和OLTP的區別描述,不正確的是: (C)
A.OLAP主要是關於如何理解聚集的大量不同的數據.它與OTAP應用程序不同
B.與OLAP應用程序不同,OLTP應用程序包含大量相對簡單的事務
C.OLAP的特點在於事務量大,但事務內容比較簡單且重複率高
D.OLAP是以數據倉庫爲基礎的,但其最終數據來源與OLTP一樣均來自底層的數據庫系統,兩者面對的用戶是相同的

關於OLAP和OLTP的說法,下列不正確的是: (A)
A.OLAP事務量大,但事務內容比較簡單且重複率高
B.OLAP的最終數據來源與OLTP不一樣
C.OLTP面對的是決策人員和高層管理人員
D.OLTP以應用爲核心,是應用驅動的

設X={1，2，3}是頻繁項集，則可由X產生( C )個關聯規則。
A.4 B.5

C.6 D.7

考慮下面的頻繁3-項集的集合：{1,2,3},{1,2,4},{1,2,5},{1,3,4},{1,3,5},{2,3,4},{2,3,5},{3,4,5}假定數據集中只有5個項,採用合併策略,由候選產生過程得到4-項集不包含（ C ）
A.1,2,3,4 B.1,2,3,5

C.1,2,4,5 D.1,3,4,5

下面選項中t不是s的子序列的是 ( C )
A.s=<{2,4},{3,5,6},{8}> t=<{2},{3,6},{8}>
B.s=<{2,4},{3,5,6},{8}> t=<{2},{8}>
C.s=<{1,2},{3,4}> t=<{1},{2}>
D.s=<{2,4},{2,4}> t=<{2},{4}>

在圖集合中發現一組公共子結構,這樣的任務稱爲 ( B )
A.頻繁子集挖掘 B.頻繁子圖挖掘

C.頻繁數據項挖掘 D.頻繁模式挖掘

下列度量不具有反演性的是 (D)
A.係數 B.機率

C.Cohen度量 D.興趣因子

下列 ( A )不是將主觀信息加入到模式發現任務中的方法。
A.與同一時期其他數據對比
B.可視化
C.基於模板的方法
D.主觀興趣度量

下面購物藍能夠提取的3-項集的最大數量是多少（C）

TID	項集
1	牛奶,啤酒,尿布
2	麪包,黃油,牛奶
3	牛奶,尿布,餅乾
4	麪包,黃油,餅乾
5	啤酒,餅乾,尿布
6	牛奶,尿布,麪包,黃油
7	麪包,黃油,尿布
8	啤酒,尿布
9	牛奶,尿布,麪包,黃油
10	啤酒,餅乾

A.1 B.2 C.3 D.4

以下哪些算法是分類算法（B）

A.DBSCAN B.C4.5 C.K-Mean D.EM

以下哪些分類方法可以較好地避免樣本的不平衡問題（A）

A.KNN B.SVM C.Bayes D.神經網絡

決策樹中不包含一下哪種結點 ( C )

根結點（root node)

內部結點（internal node）

外部結點（external node）

葉結點（leaf node）

以下哪項關於決策樹的說法是錯誤的 (C)

A. 冗餘屬性不會對決策樹的準確率造成不利的影響
B. 子樹可能在決策樹中重複多次
C. 決策樹算法對於噪聲的干擾非常敏感
D. 尋找最佳決策樹是NP完全問題

在基於規則分類器的中,依據規則質量的某種度量對規則排序,保證每一個測試記錄都是由覆蓋它的“最好的”規格來分類,這種方案稱爲 (B)
A. 基於類的排序方案
B. 基於規則的排序方案
C. 基於度量的排序方案
D. 基於規格的排序方案。

以下哪些算法是基於規則的分類器 (A)
A. C4.5 B. KNN

C. Naive Bayes D.ANN

可用作數據挖掘分析中的關聯規則算法有（C）。
A. 決策樹、對數迴歸、關聯模式

B. K均值法、SOM神經網絡

C. Apriori算法、FP-Tree算法

D. RBF神經網絡、K均值法、決策樹

如果對屬性值的任一組合,R中都存在一條規則加以覆蓋,則稱規則集R中的規則爲( B )

A.無序規則 B.窮舉規則 C.互斥規則 D.有序規則

用於分類與迴歸應用的主要算法有: ( D )

A.Apriori算法、HotSpot算法

B.RBF神經網絡、K均值法、決策樹

C.K均值法、SOM神經網絡

D.決策樹、BP神經網絡、貝葉斯

40)如果允許一條記錄觸發多條分類規則,把每條被觸發規則的後件看作是對相應類的一次投票,然後計票確定測試記錄的類標號,稱爲（A）
A.無序規則 B.窮舉規則 C.互斥規則 D.有序規則

41)考慮兩隊之間的足球比賽：隊0和隊1。假設65%的比賽隊0勝出,剩餘的比賽隊1獲勝。隊0獲勝的比賽中只有30%是在隊1的主場,而隊1取勝的比賽中75%是主場獲勝。如果下一場比賽在隊1的主場進行隊1獲勝的概率爲 (C)
A.0.75 B.0.35 C.0.4678 D.0.5738

42)以下關於人工神經網絡（ANN）的描述錯誤的有 (A)
A.神經網絡對訓練數據中的噪聲非常魯棒

B.可以處理冗餘特徵

C.訓練ANN是一個很耗時的過程

D.至少含有一個隱藏層的多層神經網絡

43)通過聚集多個分類器的預測來提高分類準確率的技術稱爲 (A)

A.組合(ensemble) B.聚集(aggregate)

C.合併(combination) D.投票(voting)

44)簡單地將數據對象集劃分成不重疊的子集,使得每個數據對象恰在一個子集中,這種聚類類型稱作（ B ）

A.層次聚類 B.劃分聚類

C.非互斥聚類 D.模糊聚類

45)在基本K均值算法裏,當鄰近度函數採用（ A ）的時候,合適的質心是簇中各點的中位數。
A.曼哈頓距離 B.平方歐幾里德距離

C.餘弦距離 D.Bregman散度
46)（ C ）是一個觀測值,它與其他觀測值的差別如此之大,以至於懷疑它是由不同的機制產生的。
A.邊界點 B.質心

C.離羣點 D.核心點
47)BIRCH是一種（ B ）。
A.分類器 B.聚類算法

C.關聯分析算法 D.特徵選擇算法
48)檢測一元正態分佈中的離羣點,屬於異常檢測中的基於（ A ）的離羣點檢測。

A.統計方法 B.鄰近度

C.密度 D.聚類技術
49)（ C ）將兩個簇的鄰近度定義爲不同簇的所有點對的平均逐對鄰近度，它是一種凝聚層次聚類技術。
A.MIN（單鏈） B.MAX（全鏈）

C.組平均 D.Ward方法
50)（ D ）將兩個簇的鄰近度定義爲兩個簇合並時導致的平方誤差的增量,它是一種凝聚層次聚類技術。
A.MIN（單鏈） B.MAX（全鏈）

C.組平均 D.Ward方法
51) 下列算法中，不屬於外推法的是（ B ）。
A.移動平均法 B.迴歸分析法

C.指數平滑法 D.季節指數法
52) 關聯規則的評價指標是：（ C ）。
A. 均方誤差、均方根誤差

B. Kappa統計、顯著性檢驗

C. 支持度、置信度

D. 平均絕對誤差、相對誤差
53)關於K均值和DBSCAN的比較,以下說法不正確的是（ A ）。
   A.K均值丟棄被它識別爲噪聲的對象,而DBSCAN一般聚類所有對象。
  B.K均值使用簇的基於原型的概念,而DBSCAN使用基於密度的概念。
   C.K均值很難處理非球形的簇和不同大小的簇,DBSCAN可以處理不同大小和不同形狀的簇。
   D.K均值可以發現不是明顯分離的簇,即便簇有重疊也可以發現,但是DBSCAN會合併有重疊的簇。

54）從研究現狀上看，下面不屬於雲計算特點的是（ C ）

A.超大規模 B.虛擬化

C.私有化 D.高可靠性

55)考慮這麼一種情況：一個對象碰巧與另一個對象相對接近,但屬於不同的類,因爲這兩個對象一般不會共享許多近鄰,所以應該選擇（ D ）的相似度計算方法。
A.平方歐幾里德距離 B.餘弦距離

C.直接相似度 D.共享最近鄰
56) 分析顧客消費行業，以便有針對性的向其推薦感興趣的服務，屬於（ A）問題。

A.關聯規則挖掘 B.分類與迴歸

C.聚類分析 D.時序預測
57)以下哪個聚類算法不是屬於基於原型的聚類（ D ）。
A.模糊C均值 B.EM算法

C.SOM                D.CLIQUE
58)關於混合模型聚類算法的優缺點,下面說法正確的是（ B ）。
   A.當簇只包含少量數據點,或者數據點近似協線性時,混合模型也能很好地處理。
   B.混合模型比K均值或模糊c均值更一般,因爲它可以使用各種類型的分佈。
   C.混合模型很難發現不同大小和橢球形狀的簇。
   D.混合模型在有噪聲和離羣點時不會存在問題。
59)以下哪個聚類算法不屬於基於網格的聚類算法（ D ）。
  A.STING         B.WaveCluster

C.MAFIA D.BIRCH
60)一個對象的離羣點得分是該對象周圍密度的逆。這是基於（ C ）的離羣點定義。
A．概率 B．鄰近度

C．密度 D．聚類

輿情研判，信息科學側重（ C ）,社會和管理科學側重突發羣體事件管理中的羣體心理行爲及輿論控制研究，新聞傳播學側重對輿論的本體進行規律性的探索和研究。

A.輿論的本體進行規律性的探索和研究

B.輿論控制研究

C.互聯網文本挖掘和分析技術

D.用戶行爲分析

MapReduce的Map函數產生很多的（ C ）

A.key B.value

C.<key,value> D.Hash

Mapreduce適用於（ D ）

A.任意應用程序

B. 任意可在windows servet2008上運行的程序

C.可以串行處理的應用程序

D. 可以並行處理的應用程序

PageRank是一個函數,它對Web中的每個網頁賦予一個實數值。它的意圖在於網頁的PageRank越高,那麼它就（ D ）。

A.相關性越高 B.越不重要

C.相關性越低 D.越重要

╳A.一對一 B.一對多

C. 多對多 D. 多對一

協同過濾分析用戶興趣,在用戶羣中找到指定用戶的相似(興趣)用戶,綜合這些用戶對某一信息的評價,形成系統對該指定用戶對此信息的喜好程度（ D ）,並將這些用戶喜歡的項推薦給有相似興趣的用戶。

A. 相似 B.相同

C.推薦 D. 預測

大數據指的是所涉及的資料量規模巨大到無法透過目前主流軟件工具,在合理時間內達到擷取、管理、處理、並（ B ）成爲幫助企業經營決策更積極目的的信息。

A.收集 B.整理

C.規劃 D.聚集

大數據科學關注大數據網絡發展和運營過程中（ D ）大數據的規律及其與自然和社會活動之間的關係。

A.大數據網絡發展和運營過程 B.規劃建設運營管理

C.規律和驗證 D.發現和驗證

大數據的價值是通過數據共享、（ D ）後獲取最大的數據價值

A.算法共享 B.共享應用

C. 數據交換 D. 交叉複用

社交網絡產生了海量用戶以及實時和完整的數據,同時社交網絡也記錄了用戶羣體的（ C ）,通過深入挖掘這些數據來了解用戶,然後將這些分析後的數據信息推給需要的品牌商家或是微博營銷公司。

A.地址 B.行爲

C.情緒 D.來源

通過數據收集和展示數據背後的（ D ）,運用豐富的、具有互動性的可視化手段,數據新聞學成爲新聞學作爲一門新的分支進入主流媒體,即用數據報道新聞。

A.數據收集 B.數據挖掘

C.真相 D. 關聯與模式

CRISP-DM 模型中Evaluation表示對建立的模型進行評估,重點具體考慮得出的結果是否符合（ C ）的商業目的。

A.第二步 B.第三步

C.第一步 D.最後一步

發現關聯規則的算法通常要經過以下三個步驟：連接數據,作數據準備；給定最小支持度和（ D ）,利用數據挖掘工具提供的算法發現關聯規則；可視化顯示、理解、評估關聯規則

A. 最小興趣度 B. 最小置信度

C. 最大支持度 D. 最小可信度

規則I->j,“有可能”,等於所有包含I的購物籃中同時包含J的購物籃的比例,爲（ B ）。

A. 置信度 B.可信度

C. 興趣度 D. 支持度

如果一個匹配中,任何一個節點都不同時是兩條或多條邊的端點,也稱作（ C ）

A. 極大匹配 B.二分匹配

C完美匹配 D.極小匹配

只要具有適當的政策推動,大數據的使用將成爲未來提高競爭力、生產力、創新能力以及（ D ）的關鍵要素。

A.提高消費 B.提高GDP

C.提高生活水平 D. 創造消費者盈餘

個性化推薦系統是建立在海量數據挖掘基礎上的一種高級商務智能平臺,以幫助（ D ）爲其顧客購物提供完全個性化的決策支持和信息服務。

A.公司 B.各單位

C.跨國企業 D. 電子商務網站

雲計算是對（ D ）技術的發展與運用

A.並行計算 B.網格計算

C.分佈式計算 D.三個選項都是

（ B ）是Google提出的用於處理海量數據的並行編程模式和大規模數據集的並行運算的軟件架構。

A.GFS B.MapReduce

C.Chubby D.BitTable

在Bigtable中，（ A ）主要用來存儲子表數據以及一些日誌文件

A. GFS B. Chubby

C.SSTable D.MapReduce

二、判斷題（共40題）

分類是預測數據對象的離散類別，預測是用於數據對象的連續取值。 (對)

時序預測迴歸預測一樣，也是用已知的數據預測未來的值，但這些數據的區別是變量所處時間的不同。(錯)

數據挖掘的主要任務是從數據中發現潛在的規則，從而能更好的完成描述數據、預測數據等任務。 (對)

對遺漏數據的處理方法主要有：忽略該條記錄；手工填補遺漏值；利用默認值填補遺漏值；利用均值填補遺漏值；利用同類別均值填補遺漏值；利用最可能的值填充遺漏值。(對)

神經網絡對噪音數據具有高承受能力，並能對未經過訓練的數據具有分類能力，但其需要很長的訓練時間，因而對於有足夠長訓練時間的應用更合適。(對)

數據分類由兩步過程組成：第一步，建立一個聚類模型，描述指定的數據類集或概念集；第二步，使用模型進行分類。(錯)

聚類是指將物理或抽象對象的集合分組成爲由類似的對象組成的多個類的過程。 (對)

決策樹方法通常用於關聯規則挖掘。 (錯)

數據規範化指將數據按比例縮放(如更換大單位)，使之落入一個特定的區域（如0-1）以提高數據挖掘效率的方法。規範化的常用方法有：最大-最小規範化、零-均值規範化、小數定標規範化。(對)

原始業務數據來自多個數據庫或數據倉庫，它們的結構和規則可能是不同的，這將導致原始數據非常的雜亂、不可用，即使在同一個數據庫中，也可能存在重複的和不完整的數據信息，爲了使這些數據能夠符合數據挖掘的要求，提高效率和得到清晰的結果，必須進行數據的預處理。(對)

數據取樣時，除了要求抽樣時嚴把質量關外，還要求抽樣數據必須在足夠範圍內有代表性。(對)

分類規則的挖掘方法通常有：決策樹法、貝葉斯法、人工神經網絡法、粗糙集法和遺傳算法。(對)

可信度是對關聯規則的準確度的衡量。 (錯)

孤立點在數據挖掘時總是被視爲異常、無用數據而丟棄。 (錯)

Apriori算法是一種典型的關聯規則挖掘算法。(對)

用於分類的離散化方法之間的根本區別在於是否使用類信息。　（對）

特徵提取技術並不依賴於特定的領域。　　（錯）

模型的具體化就是預測公式，公式可以產生與觀察值有相似結構的輸出，這就是預測值。　（對）

文本挖掘又稱信息檢索，是從大量文本數據中提取以前未知的、有用的、可理解的、可操作的知識的過程。（錯）

定量屬性可以是整數值或者是連續值。　　（對）

可視化技術對於分析的數據類型通常不是專用性的。　（錯）

OLAP技術側重於把數據庫中的數據進行分析、轉換成輔助決策信息，是繼數據庫技術發展之後迅猛發展起來的一種新技術。（對）

Web數據挖掘是通過數據庫仲的一些屬性來預測另一個屬性，它在驗證用戶提出的假設過程中提取信息。（錯）

關聯規則挖掘過程是發現滿足最小支持度的所有項集代表的規則。（錯）

利用先驗原理可以幫助減少頻繁項集產生時需要探查的候選項個數。（對）

先驗原理可以表述爲：如果一個項集是頻繁的，那包含它的所有項集也是頻繁的。（錯）

迴歸分析通常用於挖掘關聯規則。（錯）

具有較高的支持度的項集具有較高的置信度。（錯）

維歸約可以去掉不重要的屬性，減少數據立方體的維數，從而減少數據挖掘處理的數據量，提高挖掘效率。（對）

聚類（clustering）是這樣的過程：它找出描述並區分數據類或概念的模型(或函數)，以便能夠使用模型預測類標記未知的對象類。（錯）

對於SVM分類算法，待分樣本集中的大部分樣本不是支持向量，移去或者減少這些樣本對分類結果沒有影響。（對）

Bayes法是一種在已知後驗概率與類條件概率的情況下的模式分類方法，待分樣本的分類結果取決於各類域中樣本的全體。 (錯)

在決策樹中，隨着樹中結點數變得太大，即使模型的訓練誤差還在繼續減低，但是檢驗誤差開始增大，這是出現了模型擬合不足的問題。（錯）

在聚類分析當中，簇內的相似性越大，簇間的差別越大，聚類的效果就越差。（錯）

聚類分析可以看作是一種非監督的分類。（對）

K均值是一種產生劃分聚類的基於密度的聚類算法，簇的個數由算法自動地確定。（錯

基於鄰近度的離羣點檢測方法不能處理具有不同密度區域的數據集。（對）

如果一個對象不強屬於任何簇，那麼該對象是基於聚類的離羣點。（對）

大數據的4V特點是Volume、Velocity、Variety、Veracity。（對）

聚類分析的相異度矩陣是用於存儲所有對象兩兩之間相異度的矩陣，爲一個nn維的單模矩陣。（對）

三、多選題（共30題）

噪聲數據的產生原因主要有：（ABCD）

數據採集設備有問題

在數據錄入過程中發生了人爲或計算機錯誤

數據傳輸過程中發生錯誤

由於命名規則或數據代碼不同而引起的不一致

尋找數據集中的關係是爲了尋找精確、方便並且有價值地總結出數據的某一特徵的表示,這個過程包括了以下哪些步驟？ (A B C D)

A.選擇一個算法過程使評分函數最優
B.決定如何量化和比較不同表示擬合數據的好壞
C.決定要使用的表示的特徵和結構
D.決定用什麼樣的數據管理原則以高效地實現算法

數據挖掘的預測建模任務主要包括哪幾大類問題？(A B)

A. 分類

B. 迴歸

C. 聚類

D. 關聯規則挖掘

4) 下列屬於不同的有序數據的有：(A B C D)
A.時序數據

B.序列數據

C.時間序列數據

D.事務數據

E.空間數據

5) 下面屬於數據集的一般特性的有：( B C D)
A.連續性

B.維度

C.稀疏性

D.分辨率

E.相異性

6）下面屬於維歸約常用的處理技術的有： (A C)
A.主成分分析

B.特徵提取

C.奇異值分解

D.特徵加權

E.離散化

噪聲數據處理的方法主要有：（ ABD ）

A.分箱 B.聚類

C.關聯分析 D.迴歸

數據挖掘的主要功能包括概念描述、趨勢分析、孤立點分析及（ ABCD ）等方面。

A.挖掘頻繁模式　 B.分類和預測　

C.聚類分析 D.偏差分析

以下各項均是針對數據倉庫的不同說法,你認爲正確的有（BCD ）。
A．數據倉庫就是數據庫
B．數據倉庫是一切商業智能系統的基礎
C．數據倉庫是面向業務的,支持聯機事務處理（OLTP）
D．數據倉庫支持決策而非事務處理

10）聯機分析處理包括( BCD )基本分析功能。
A.聚類 B.切片

C.轉軸 D.切塊

11）利用Apriori算法計算頻繁項集可以有效降低計算頻繁集的時間複雜度。在以下的購物籃中產生支持度不小於3的候選3-項集，在候選2-項集中需要剪枝的是( BD )

TID	項集
1	麪包、牛奶
2	麪包、尿布、啤酒、雞蛋
3	牛奶、尿布、啤酒、可樂
4	麪包、牛奶、尿布、啤酒
5	麪包、牛奶、尿布、可樂

A.啤酒、尿布 B.啤酒、麪包

C.麪包、尿布 D.啤酒、牛奶

12）下表是一個購物籃,假定支持度閾值爲40%,其中( AD )是頻繁閉項集。

ID	項集
1	麪包、牛奶、尿布
2	麪包、牛奶、尿布、啤酒
3	牛奶、尿布、雞蛋
4	麪包、尿布、啤酒、雞蛋
5	啤酒、雞蛋

A.麪包、牛奶、尿布 B.麪包、啤酒
C.尿布、啤酒 D.啤酒、雞蛋

13）Apriori算法的計算複雜度受( ABCD )影響。

A.支持度閥值 B.項數（維度）

C.事務數 D.事務平均寬度

14）以下關於非頻繁模式說法,正確的是（ AD ）

A.其支持度小於閾值 B.都是不讓人感興趣的

C.包含負模式和負相關模式 D.對異常數據項敏感

15）以下屬於分類器評價或比較尺度的有: ( ACD )

A.預測準確度 B.召回率

C.模型描述的簡潔度 D.計算複雜度

16）貝葉斯信念網絡(BBN)有如下哪些特點。（AB）

A.構造網絡費時費力

B.對模型的過分問題非常魯棒

C.貝葉斯網絡不適合處理不完整的數據

D.網絡結構確定後,添加變量相當麻煩

17）如下哪些不是最近鄰分類器的特點。 (C)

A.它使用具體的訓練實例進行預測，不必維護源自數據的模型

B.分類一個測試樣例開銷很大

C.最近鄰分類器基於全局信息進行預測

D.可以生產任意形狀的決策邊界

18）以下屬於聚類算法的是（ AB ）。
A.K-Means B.DBSCAN

C.Apriori D.KNN

19)（ CD ）都屬於簇有效性的監督度量。
A.輪廓係數 B.共性分類相關係數

C.熵 D.F度量

20)（ ABCD ）這些數據特性都是對聚類分析具有很強影響的。
A.高維性 B.規模

C.稀疏性 D.噪聲和離羣點

21)在聚類分析當中，（ AD ）等技術可以處理任意形狀的簇。
A.MIN（單鏈） B.MAX（全鏈）

C.組平均 D.Chameleon

22)（ AB ）都屬於分裂的層次聚類算法。
A.二分K均值 B.MST

C.Chameleon D.組平均

23)數據挖掘的挖掘方法包括：（ ABCD ）

A.聚類分析 B.迴歸分析

C.神經網絡 D.決策樹算法

24)Web內容挖掘實現技術（ ABCD ）

A.文本總結 B.文本分類

C.文本聚類 D.關聯規則

25)基於內容的推薦生成推薦的過程主要依靠（ ACD ）

A.內容分析器

B.推薦系統

C.文件學習器

D.過濾部件

26)雲計算的服務方式有（ ACD ）

A.IaaS B.Raas

C.PaaS D.SaaS

27)文本挖掘的工具有（ BCD ）

A.SPP Text Mining

B.IBM DB2 intelligent Miner

C.SAS Text Miner

D.SPSS Text Mining

28)推薦系統爲客戶推薦商品,自動完成個性化選擇商品的過程,滿足客戶的個性化需求,推薦基於網站最熱賣商品、客戶所處城市、（ D ）,推測客戶將來可能的購買行爲。

A.客戶的朋友 B.客戶的個人信息

C.客戶的興趣愛好 D.客戶過去的購買行爲和購買記錄

29)數據預處理方法主要有（ ABCD）。

A.數據清洗 B.數據集成

C.數據變換 D.數據歸約

30)與傳統的分佈式程序設計相比，Mapreduce封裝了（ ABCD ）等細節，還提供了一個簡單而強大的接口。

A.並行處理 B.容錯處理

C.本地化計算 D.負載均衡

超全數據挖掘面試筆試題（附答案）

DAPPER 事務 TRANSACTION

淺談前端入門以及項目初創的經驗

BSM的兩個基本問題與python實現（歐式期權定價公式）

python 超全sklearn教程，數據挖掘從入門到入坑

Python股票數據分析——策略、收益率計算

2020支付寶五福AR圖

https://yachay.unat.edu.pe/blog/index.php?comment_area=format_blog&comment_component=blog&comment_co

linux以太網驅動總結