數據分析:
經常使用包:
numpy,matplotlib,scipy.org ,leain , pandas,
Anaconda
流程:
1獲取數據 ---->2探索分析可視化 ----->3預處理 ------>4分析建模 ----->5建模評估
學習網址:
數據競賽網站:kaggle
數據集網站:ImageNet/Open Images
各領域統計數據:統計局、政府機構、公司財報等
2探索分析可視化
(1)單因子探索分析與可視化
導入模塊:
import pandas as pd
(2)分佈分析
1.直接獲得概率分佈
2.是不是正太分佈
3.極大似然 == 及其相似
3.mapreduce框架
https://blog.csdn.net/burpee/article/details/78769161
4.yarn
1.從架構:主節點和從節點
2.任務調度
>>yarn 運行多個程序
>>應用程序運行所需要資源
>>資源的分配
>>yarn任務調度