今天曹大(caoz的夢囈)在公衆號裏分析裏如上標題的文章。其實就是一個廣告,但是廣告也有廣告的用處。文章裏面列出裏課程的學習提綱,是圖片形式的。我這裏花裏一點時間,手敲成文字,而沒有用OCR,原因是想看看這個課程到底值不值得學。因爲數據分析師這個崗位還是比較有前景的,所以光看一下提綱,然後自己對照提綱去查找資料自學,也是可行的。如果有學習的需要,可以自行到曹大的公衆號裏按流程購買。
課程大綱如下:
數據分析師最佳實踐(15%)
快速入門:認知數據分析
數據分析概念
- 數據分析是什麼
- 數據分析概念及應用場景
- 數據分析分析什麼
- 分析方法、應用領域
數據分析價值
- 通過數據返現商機
- 發現數據之間的關聯,預測趨勢
- 通過數據分析做精準營銷
- 精準營銷方案設計
- 通過數據分析做用戶畫像
- 用戶畫像、用戶行爲分析
- 通過數據分析生成數據分析報告、提供決策和業務優化支持
- 決策支持和業務優化
數據分析前景
- 數據分析的成功案例
- 數據加載、數據清洗、數據展示、數據分析師必備技能
- 數據分析的行業發展
- 數據分析行業人才需求、專門數據分析崗位需求、專門的數據分析機構
- 數據分析師的職業發展
- 傳統行業和互聯網行業業務流程、專業技能
材料準備:數據採集與處理
認識數據
- 認識數據表的字段和記錄
- 字段、記錄、表
- 使用Excel製作數據表、指定常用數據類型
- 數值型、字符型、一維表、二維表
獲取數據
- 使用Excel導入網站數據及文本數據
- 網站數據、定時刷新、自動刷新、文本導入
處理數據
- 使用Excel進行數據清洗和篩選
- 數據導入、數據清理、數據篩選、條件格式、數據透視法
- 使用Excel進行數據抽樣和計算
- 數據抽樣、AVERAGE函數、SUM函數、MAX函數、MIN函數、IF函數
- 數據可視化
- 數據透視表、圖表展示
工具準備:數據可視化工具
Tableau概述及常用操作
- 使用Tableau 進行數據加載及操作
- Tableau 導航
- Tableau 設計流程
- Tableau 文件類型
- Tableau 數據源
- Tableau 計算
- Tableau 工作表
- Tableau 圖表
- 儀表盤
- 故事板
Power BI 概述及常用操作
- 使用Power BI加載數據源及塑造數據
- 數據加載、塑造數據、M函數、切片器
- 使用Power BI加載數據源及塑造數據
- 建模數據、可視化、圖標
案例分析:電子商務數據分析
選擇數據分析核心數據
- 如何選擇核心數據
- 會員數據
- 營銷數據
- 行業數據
- 交易與服務數據
掌握核心指標
- 如何掌握核心指標
- 轉化指標
- 會員指標
- 流量指標
- 運營指標
- 成交轉化率指標
掌握核心方法
- 掌握核心方法
- 常用核心方法
章節難點亮點:
快速入門數據分析技能,結合行業知識進行數據分析,形成數據分析報告。掌握數據分析實用工具和數據分析常用方法。深入理解業務流程,提升業務背景。快速、準確找到數據之間的關係,發現潛在價值。
培養目標:收集數據、清洗數據、分析數據、形成數據分析報告
全棧數據分析師養成記(35%)
基於python的自動化數據分析基礎
python 語法入門
- 使用anaconda 搭建Python開發環境
- python
- ananconda
- mac
- windows
- 使用jupyter notebook 編寫Python 程序
- 變量
- 數據類型
- 運算符
- 數據處理和輸入
- 分支和循環
- 函數
python 數據結構
- 使用列表、字典和集合操作數據
- 列表
- 字典
- 集合
python 文件操作
- 使用open、write實現文件操作
- 文件
- open
- close
- write
python 面向對象
- 使用Python實現面向對象編程
- 類
- 對象
- 方法
- 封裝
- 繼承
- 多態
模塊與異常處理
- 模塊導入與異常介紹
- 內置模塊
- 自定義模塊
- 模塊導入的注意點
- 異常捕獲
- 自定義異常
Mysql 數據庫
- 建庫、建表及Sql語句增刪改查操作
- 基礎語法
- 圖形界面工具
- 數據類型
- 數據庫
- 數據表
- 數據查詢
- 條件
- 排序
- 聚合
- 分組
- 連接
- 自關聯
- 子查詢
- 數據庫設計原則
基於Web可視化技術的前端基礎
http 網絡請求
- 網絡響應原理及基本使用
- HTTP
- HTTPS
- Requests
- Session
網頁基本組成與結構
- HTML 頁面組成及結構
- HTML
- HTML5
- CSS
- CSS3
- JavaScript
Request 庫的使用
- 使用Requests 獲取數據
- get
- post
- 響應內容
- 請求頭
- 響應狀態碼
- 重定向與請求歷史
- Cookie
常用數據存儲形式
- 實現txt、JSON、CSV等格式文件存儲
- json 格式
- 數據類型
- json 解析
- csv 文件
基於Numpy 實現科學計算
NumPy 創建多維數組對象
- 使用NumPy 生成ndarray
- 創建ndarray
- ndarray 的數據類型
- 數據結構多維數組對象ndarray
數組的算術運算
- 使用 NumPy 實現數組算術運算
- NumPy數組的運算
數組的索引與切片
- 使用NumPy對數組進行索引與切片
- 索引和切片
- 布爾索引
- 神奇索引
數組轉置和換軸
- 使用NumPy對數組進行轉置和換軸
- T、swapaxes、ufunc 通用函數、
- 利用數組進行數據處理
- 數學和統計方法概覽
- 數組排序
- 唯一化
數組的文件輸入和輸出
- 使用數組進行面向數組編程
- 文件的保存與讀取
- 線性袋鼠知識回顧
- 多維數組對象的內部機理
- 數組重塑
- 數組的合併和拆分
- 元素的重複操作
- 花式索引等價函數
- 廣播機制
- ufunc 高級方法
- 數組高級排序方法
基於python科學計算包實現數據預處理和數據分析
Pandas 數據結構介紹
- 使用Pandas 創建Series 對象
- 創建Series
- 使用Pandas創建DataFrame對象
- 創建DataFrame
Pandas 索引對象
- 使用Pandas創建索引對象
- 行索引和列索引
- 重建索引
Pandas 基本操作
- 使用Pandas對數據進行索引、選擇和過濾
- 刪除數據項
- 索引選取過濾
- loc和iloc進行選取
- 整數索引
算術和數據對齊
- 使用Pandas對數據進行算術和數據對齊
- 算術運算和數據對齊
- DataFrame 和 Series的運算
- 函數應用和映射
排序和排名
- 使用Pandas對數據進行排序和排名
- 排序和排名
- 彙總和描述性統計
- 相關係數和協方差
- 分類數據
- 用分類進行數據
- 分類方法
- 創建虛擬變量
- GroupBy高級應用
- 分組的時間重採樣
- 鏈式編程
- 管道方法
數據加載及存儲
- 使用Pandas進行多種格式數據的讀寫
- 用Pandas讀取文本格式的數據。read_rsv、read_table、read_excel、read_json、read_pickle、to_pickle、逐塊讀取文本數據、講數據輸出到文本數據、處理分隔符
與數據庫進行數據加載
- 使用Pandas與數據庫交互
- 數據庫交互(MySQL、NoSQL)、數據庫、數據表
處理缺失值及數據轉換
- 使用Pandas 過濾缺失值
- 處理缺失數據、過濾缺失數據
- 使用Pandas補全缺失值
- 填充缺失數據
- 使用Pandas刪除重複數據
- 去除重複數據
- 使用函數或映射進行數據轉換
- 函數轉換數據
- 重命名索引
- 排列和隨機採樣
- 使用正則表達式對數據進行操作
- 字符串操作、矢量化字符串函數
分層索引
- 使用Pandas進行分層索引的實現
- 層次化索引
- 使用Pandas進行重排序和層級排序
- 重排與分級排序、根據級別彙總統計
- 使用DataFrame的列進行索引
- 使用列作爲索引
聯合和合並數據集
- 使用Pandas進行聯合與合併數據集
- 合併數據集
- 索引合併
- 軸向連接
- 合併重疊數據
數據重塑與透視
- 使用多層索引進行重塑
- 重塑和軸向旋轉
- 長格式寬格式轉換
基於繪圖庫(Matplotlib)實現數據可視化
matplotlib API 使用入門
- 使用matplotlib 繪圖、設置顏色、標記和線類型
- Matplotlib API、Figure、Subplot、nrows、ncols、sharex、sharey
常用繪圖展示
- 使用matplotlib對圖標進行刻度、標籤、圖例設置
- 註釋、子圖、圖例
常用可視化工具介紹
- 使用Pandas和seaborn 繪圖
- 折線圖、柱狀圖、直方圖、密度圖、散點圖
基於聚合分組技術發現數據之間的關係及價值
GroupBy 機制
- 使用字典和Series分組
- GroupBy 機制、遍歷各分組、函數分組
- 使用函數分組
- len、sum、min、max
- 根據索引層級分組
- asix、multiIndex
數據聚合
- 使用Pandas實現數據透視表與交叉表
- 數據聚合、透視表、交叉表
基於時間序列操作細化數據的時間展示
日期和時間數據類型及工具
- 使用datetime 實現字符串與時間類型的轉換
- 時間戳、時間間隔、時區、字符串與datetime互相轉換
時間序列基礎
- 時間序列
- 索引、選擇、子集
時區處理
- 使用Pandas生成日期範圍、頻率和移位
- 頻率和日期偏置、時區本地化和轉換
時間區間和區間算術
- 使用Pandas進行時區處理
- 時區區間和區間算術、區間頻率轉換、季度區間頻率
案例分析
電影評分數據分析
美國農業部食品數據分析
金融數據分析
招聘網站崗位及薪資趨勢分析報告
- 涉及娛樂、金融、互聯網等行業真實數據,從業務流程角度進行數據分析,增強業務與技術實戰能力。
- 數據清洗、時間序列、聚合與分組、柱狀圖、折線圖、熱力圖
章節難點亮點:
簡單易學的Python語言實戰、靈活多樣的數據網絡爬蟲。高效靈活的數據分析工具包:NumPy、pandas、matplotlib。涉及廣泛的行業項目實戰。
培養目標:懂業務、懂管理、懂分析、懂工具、懂設計。能夠進行市場調研、數據報告、精準營銷、客戶畫像。
大數據分析師晉升記(50%)
基於Hadoop生態系統大數據平臺搭建及運算原理
Hadoop 集羣搭建及安裝
- 安裝Hadoop及配置SSH
- 集羣搭建
- 安裝jdk
- SSH配置
- 格式化HDFS文件系統
- Hadoop配置管理
- Hadoop環境變量
HDFS設計原理及概念
- 使用HDFS實現數據操作
- Hadoop命令、數據流
MapReduce 工作原理
- MapReduce 工作機制
- map、reduce、數據流、配置開發環境、MapReduce工作流、MapReduce工作機制
分佈式大數據倉庫Hive 設計及數據檢索實戰
Hadoop之HiveQL 操作數據
- 基礎語法、表連接、普通函數、窗口函數、sql優化
- 創建表、創建分區、重命名、增加列、刪除列、導入導出數據、數據查詢、內連接、左外連接、右外連接、全連接、自查詢、視圖、內置函數、自定義函數、窗口函數、SQL優化
數據分析方法
描述統計分析方法
- 頻數分析、集中趨勢、離散程度、數據分佈
- 頻數、平均數、中位數、衆數、極差、方差、標準差、變異係數、峯值、偏度
迴歸分析方法
- 線性迴歸、邏輯迴歸、多項式迴歸、多元迴歸
- 因變量、自變量、迴歸線、迴歸係數
多元統計分析方法
- 聚類分析、判別分析、主成分分析、因子分析
- 聚類分析的思想
- 相似性度量
- 類和類的特徵
- 距離判別
- 貝葉斯判別
- 逐步判別
- 主成分
- 總體成分
- 因子載荷
時間序列分析方法
- 自迴歸模型、季節模型
- 時間序列
- 時間序列分析
- GNAR模型
數據可視化
可視化工具使用(Excel)
- 使用Excel實現數據可視化
- 條形圖&柱狀圖
- 餅圖&環形圖
- 單折圖&雙摺線圖
- 散點圖&氣泡圖
- 箱線圖
- 雷達圖
- 組合圖
可視化工具使用(Tableau)
- 使用Tableau實現數據可視化
- 條形圖&柱狀圖
- 餅圖&環形圖
- 單折圖&雙摺線圖
- 散點圖&氣泡圖
- 箱線圖
- 雷達圖
- 組合圖
高級數據可視化
瀑布圖、桑基圖、漏斗圖、矩形樹圖、旭日圖
- 使用Excel、Tableau實現
- 繪製圖表
Excel 動態圖表
- 使用Excel實現
- 組合框控件、數據源
地圖可視化
- 使用Tableau 實現
- 地圖繪製、地圖配色
echarts 實現
- 使用echarts實現常用圖表
- 構建echarts、數據加載
高級數據分析師實戰
經營分析方法論
- 交易分析
- 如何做好交易日報分析
- 流量分析
- 渠道分析
- 流量漏斗分析
- 用戶分析
- 用戶畫像
- 行爲分析
- 留存分析
行業分析方法論
- 競爭對手分析
- 分析方法、分析內容
- 行業動態
- 行業分佈、行業趨勢
業務分析方法論
- 產品分析
- 功能迭代分析、轉化率分析
- 運營分析
- 活動運營分析、用戶運營分析
- 銷售分析
- 業績達成分析、人效分析
章節難點亮點:
熟練掌握大數據集羣搭建及環境配置,熟練掌握數據倉庫搭建,並通過ETL 對數據進行轉換操作。熟練掌握概率論和統計學知識進行建模。熟練使用hadoop、MapReduce、HDFS、hive 等技術。熟練搭建Hadoop + Hive 大數據分析架構,熟練掌握hadoop + hive + tableau 平臺功能與應用場景。
培養目標:大數據分析師、瞭解業務方向和戰略,提供決策和業務優化、營銷戰略。