PS.本文圖片都是作者原創,轉載請註明出處,謝謝!
寫這篇博客的原因
我備考之路可以說是相當孤獨,還好在後期加了備考羣遇到了一些同樣備考的小夥伴。當時搜索資料也是相當有限,希望搜索CDA考試的小夥伴們知道,你們不是在孤軍奮戰~
考試介紹
題型分佈
考綱梳理
1. 考綱內容
PART 1 數據挖掘基礎理論(佔比20% )
a. 數據挖掘概要(2%)
b. 數據挖掘方法和原理(7%)
c. 數據挖掘技術基礎(5%)
d. 數據挖掘技術進階(6%)
PART 2 數據預處理(佔比25% )
a. 字段選擇(2%)
b. 數據清洗(8%)
c. 字段擴充(2%)
d. 數據編碼(8%)
e. 特徵提取技術(5%)
PART 3 預測型數據挖掘模型(佔比40% )
a. 樸素貝葉斯(5%)
b. 線性迴歸(3%)
c. 決策樹(分類樹及迴歸樹)(8%)
d. 神經網絡與深度學習(6%)
e. 邏輯迴歸(2%)
f. 支持向量機(4%)
g. 集成方法(5%)
h. 模型評估(7%)
PART 4 描述型數據挖掘模型(15% )
a. 聚類分析(6%)
b. 關聯規則(6%)
c. 序列模式(3%)
2. 考綱重點梳理
- Part 1.基礎理論——
緊扣大綱,不放過每個可能的考點
(考點細)
數據挖掘概念—
什麼是數據挖掘
?數據挖掘的起源?發展歷程
?
(數據蒐集—>數據查詢—>數據統計—>數據分析)
方法原理—
什麼是???
????的步驟
?數據挖掘流程:CRISP-DM?SEMMA?(從數據預處理環節出發探索二者的共同點)
數據挖掘的基礎技術—
探索性數據分析
case based learning:KNN——原理?數據處理?距離計算?
數據挖掘的進階技術—
有監督數據挖掘模型
無監督數據挖掘模型 - Part 2.
數據預處理
——以大綱爲主,理論結合實操
!
數據清洗
噪聲
缺失值處理
數據編碼
特徵提取(變量篩選)
字段選擇&字段擴充 - Part 3.數據挖掘模型——
從考綱出發,結合參考書,攻克算法
模型評估
-混淆矩陣、precision、recall、F1指標;(實操)閾值確定:F1、profit、ROC、Lift曲線。
決策樹
-分裂屬性的選擇、ID3、C4.5、CART、CHAID
聚類分析
關聯規則
&序列模式
神經網絡
樸素貝葉斯
集成方法
支持向量機
邏輯迴歸和線性迴歸
Tip
一些具體內容請移步:http://www.peixun.net/view/1432.html?tab=zhangjie&autoplay=1
學習資料
https://exam.cda.cn/static/exam_attachment/L2jmjx77.pdf
密碼:cda2