第一章
1、數據倉庫就是一個面向主題的、集成的、相對穩定的、反映歷史變化的數據集合。
2、元數據是描述數據倉庫內數據的結構和建立方法的數據,它爲訪問數據倉庫提供了一個信息目錄,根據數據用途的不同可將數據倉庫的元數據分爲技術元數據和業務元數據兩類。
3、數據處理通常分成兩大類:聯機事務處理和聯機分析處理。
4、多維分析是指以“維”形式組織起來的數據(多維數據集)採取切片、切塊、鑽取和旋轉等各種分析動作,以求剖析數據,使擁護能從不同角度、不同側面觀察數據倉庫中的數據,從而深入理解多維數據集中的信息。
5、ROLAP是基於關係數據庫的OLAP實現,而MOLAP是基於多維數據結構組織的OLAP實現。
6、數據倉庫按照其開發過程,其關鍵環節包括數據抽取、數據存儲與管理和數據表現等。
7、數據倉庫系統的體系結構根據應用需求的不同,可以分爲以下4種類型:兩層架構、獨立型數據集合、以來型數據結合和操作型數據存儲和邏輯型數據集中和實時數據倉庫。
8、操作型數據存儲實際上是一個集成的、面向主題的、可更新的、當前值的(但是可“揮發”的)、企業級的、詳細的數據庫,也叫運營數據存儲。
9、“實時數據倉庫”以爲着源數據系統、決策支持服務和倉庫倉庫之間以一個接近實時的速度交換數據和業務規則。
10、從應用的角度看,數據倉庫的發展演變可以歸納爲5個階段:以報表爲主、以分析爲主、以預測模型爲主、以運營導向爲主和以實時數據倉庫和自動決策爲主。
第二章
1、調和數據是存儲在企業級數據倉庫和操作型數據存儲中的數據。
2、抽取、轉換、加載過程的目的是爲決策支持應用提供一個單一的、權威數據源。因此,我們要求ETL過程產生的數據(即調和數據層)是詳細的、歷史的、規範的、可理解的、即時的和質量可控制的。
3、數據抽取的兩個常見類型是靜態抽取和增量抽取。靜態抽取用於最初填充數據倉庫,增量抽取用於進行數據倉庫的維護。
4、粒度是對數據倉庫中數據的綜合程度高低的一個衡量。粒度越小,細節程度越高,綜合程度越低,回答查詢的種類越多。
5、使用星型模式可以從一定程度上提高查詢效率。因爲星型模式中數據的組織已經經過預處理,主要數據都在龐大的事實表中。
6、維度表一般又主鍵、分類層次和描述屬性組成。對於主鍵可以選擇兩種方式:一種是採用自然鍵,另一種是採用代理鍵。
7、雪花型模式是對星型模式維表的進一步層次化和規範化來消除冗餘的數據。
8、數據倉庫中存在不同綜合級別的數據。一般把數據分成4個級別:早期細節級、當前細節級、輕度綜合級和高度綜合級。
第三章
1、SQL Server SSAS提供了所有業務數據的同意整合試圖,可以作爲傳統報表、在線分析處理、關鍵性能指示器記分卡和數據挖掘的基礎。
2、數據倉庫的概念模型通常採用信息包圖法來進行設計,要求將其5個組成部分(包括名稱、維度、類別、層次和度量)全面地描述出來。
3、數據倉庫的邏輯模型通常採用星型圖法來進行設計,要求將星型的各類邏輯實體完整地描述出來。
4、按照事實表中度量的可加性情況,可以把事實表對應的事實分爲4種類型:事務事實、快照事實、線性項目事實和事件事實。
5、確定了數據倉庫的粒度模型以後,爲提高數據倉庫的使用性能,還需要根據擁護需求設計聚合模型。
6、在項目實施時,根據事實表的特點和擁護的查詢需求,可以選用時間、業務類型、區域和下屬組織等多種數據分割類型。
7、當維表中的主鍵在事實表中沒有與外鍵關聯時,這樣的維稱爲退化維。它於事實表並無關係,但有時在查詢限制條件(如訂單號碼、出貨單編號等)中需要用到。
8、維度可以根據其變化快慢分爲元變化維度、緩慢變化維度和劇烈變化維度三類。
9、數據倉庫的數據量通常較大,且數據一般很少更新,可以通過設計和優化索引結構來提高數據存取性能。
10、數據倉庫數據庫常見的存儲優化方法包括表的歸併與簇文件、反向規範化引入冗餘、表的物理分割(分區)。
第四章
1、關聯規則的經典算法包括Apriori算法和FP-growth算法,其中FP-grownth算法的效率更高。
2、如果L2={{a,b},{a,c},{a,d},{b,c},{b,d}},則
連接產生的C3={{a,b,c},{a,b,d},{a,c,d},{b,c,d}}
再經過修剪,C3={{a,b,c},{a,b,d}}
3、設定supmin=50%,交易集如
則L1={A},{B},{C} L2={A,C}
T1 A B C
T2 A C
T3 A D
T4 B E F
第五章
1、分類的過程包括獲取數據、預處理、分類器設計和分類決策。
2、分類器設計階段包含三個過程:劃分數據集、分類器構造和分類器測試。
3、分類問題中常用的評價準則有精確度、查全率和查準率和集合均值。
4、支持向量機中常用的核函數有多項式核函數、徑向基核函數和S型核函數。
第六章
1、聚類分析包括連續型、二值離散型、多值離散型和混合類型4種類型描述屬性的相似度計算方法。
2、連續型屬性的數據樣本之間的距離有歐氏距離、曼哈頓距離和明考斯基距離。
3、劃分聚類方法對數據集進行聚類時包含三個要點:選種某種距離作爲數據樣本減的相似性度量、選擇評價聚類性能的準則函數和選擇某個初始分類,之後用迭代的方法得到聚類結果,使得評價聚類的準則函數取得最優值。
4、層次聚類方法包括凝聚型和分解型兩中層次聚類方法。
填空題20分,簡答題25分,計算題2個(25分),綜合題30分
1、數據倉庫的組成?P2
數據倉庫數據庫,數據抽取工具,元數據,訪問工具,數據集市,數據倉庫管理,信息發佈系統
2、數據挖掘技術對聚類分析的要求有哪幾個方面?P131
可伸縮性;處理不同類型屬性的能力;發現任意形狀聚類的能力;減小對先驗知識和用戶自定義參數的依賴性;處理噪聲數據的能力;可解釋性和實用性
3、數據倉庫在存儲和管理方面的特點與關鍵技術?P7
數據倉庫面對的是大量數據的存儲與管理
並行處理
針對決策支持查詢的優化
支持多維分析的查詢模式
4、常見的聚類算法可以分爲幾類?P132
基於劃分的聚類算法,基於層次的聚類算法,基於密度的聚類算法,基於網格的聚類算法,基於模型的聚類算法 等。
5、一個典型的數據倉庫系統的組成?P12
數據源、數據存儲與管理、OLAP服務器、前端工具與應用
- 數據倉庫常見的存儲優化方法?P71
表的歸併與簇文件;反向規範化,引入冗餘;表的物理分割。 - 數據倉庫發展演變的5個階段?P20
以報表爲主
以分析爲主
以預測模型爲主
以運行嚮導爲主以實時數據倉庫、自動決策應用爲主 - ID3算法主要存在的缺點?P116
(1)ID3算法在選擇根結點和各內部結點中的分枝屬性時,使用信息增益作爲評價標準。信息增益的缺點是傾向於選擇取值較多的屬性,在有些情況下這類屬性可能不會提供太多有價值的信息。
(2)ID3算法只能對描述屬性爲離散型屬性的數據集構造決策樹。 - 簡述數據倉庫ETL軟件的主要功能和對產生數據的目標要求。P30
ETL軟件的主要功能:
數據的抽取,數據的轉換,數據的加載
對產生數據的目標要求:
詳細的、歷史的、規範化的、可理解的、即時的、質量可控制的 - 簡述分類器設計階段包含的3個過程。★
劃分數據集,分類器構造,分類器測試 - 什麼是數據清洗?P33★
數據清洗是一種使用模式識別和其他技術,在將原始數據轉換和移到數據倉庫之前來升級原始數據質量的技術。 - 支持度和置信度的計算公式及數據計算(P90)
找出所有的規則X à Y , 使支持度和置信度分別大於門限支持度: 事務中X和Y同時發生的比例,P(X Ո Y)置信度:項集X發生時,Y同時發生的條件概率P(Y|X)
Example:
13、利用信息包圖設計數據倉庫概念模型需要確定的三方面內容。P57
確定指標,確定維度,確定類別
14、K-近鄰分類方法的操作步驟(包括算法的輸入和輸出)。P128
15、什麼是技術元數據,主要包含的內容?P29
技術元數據是描述關於數據倉庫技術細節的數據,應用於開發、管理和維護DW,包含:
-
-
- DW結構的描述,如DW的模式、視圖、維、層次結構和導出數據的定義,數據集市的位置和內容等
- 業務系統、DW和數據集市的體系結構和模式
- 彙總算法。包括度量和維定義算法,數據粒度、主題領域、聚合、彙總和預定義的查詢和報告。
- 由操作型業務環境到數據倉庫業務環境的映射。包括源數據和他們的內容、數據分割、數據提取、清洗、轉換規則和數據刷新規則及安全(用戶授權和存取控制)
-
16、業務元數據主要包含的內容?P29
業務元數據:從業務角度描述了DW中的數據,提供了介於使用者和實際系統之間的語義層,主要包括:
-
-
- 使用者的業務屬於所表達的數據模型、對象名和屬性名
- 訪問數據的原則和數據的來源
- 系統提供的分析方法及公式和報表的信息。
-
17、K-means算法的基本操作步驟(包括算法的輸入和輸出)。P138★
18、數據從集結區加載到數據倉庫中的主要方法?P36
-
- SQL命令(如Insert或Update)
- 由DW供應商或第三方提供專門的加載工具
- 由DW管理員編寫自定義程序
19、多維數據模型中的基本概念:維,維類別,維屬性,粒度P37
-
- 維:人們觀察數據的特定角度,是考慮問題的一類屬性,如時間維或產品維
- 維類別:也稱維分層。即同一維度還可以存在細節程度不同的各個類別屬性(如時間維包括年、季度、月等)
- 維屬性:是維的一個取值,是數據線在某維中位置的描述。
-
- 粒度:DW中數據綜合程度高低的一個衡量。粒度低,細節程度高,回答查詢的種類多
??20、Apriori算法的基本操作步驟P93★
- Apriori使用一種稱作逐層搜索的迭代方法,K項集用於探索K+1項集。
- 該方法是基於候選的策略,降低候選數
- Apriori剪枝原則:若任何項集是非頻繁的,則其超集必然是非頻繁的(不用產生和測試超集)
- 該原則基於以下支持度的特性:
-
- 項集的支持度不會超過其子集
- 支持度的反單調特性(anti-monotone):如果一個集合不能通過測試,則它的所有超集也都不能通過相同的測試。
- 令 k=1
- 產生長度爲1的頻繁項集
- 循環,直到無新的頻繁項集產生
- 從長度爲k的頻繁項集產生長度爲k+1的候選頻繁項集
- 連接步:項集的各項排序,前k-1個項相同
- 若候選頻繁子集包含長度爲k的非頻繁子集,則剪枝
- 剪枝步:利用支持度屬性原則
- 掃描數據庫,計算每個候選頻繁集的支持度
- 刪除非頻繁項, 保留頻繁項
- 從長度爲k的頻繁項集產生長度爲k+1的候選頻繁項集