原创 欠自己的旅行,你打算什麼時候還?

記得18歲的時候 你豪言壯語,勵志要環遊世界! 等到23歲的時候 你說定要升職加薪,攢夠錢就走! 轉眼28歲,你忙着買房買車 你說等成家了,帶着老婆一起旅行!

原创 hadoop----eclipse導入hadoop源碼

首先保證已經安裝  jdk ; maven ; protoc(不然編譯源碼報錯下載地址) ; eclipse m2e插件 設置maven鏡像  maven\conf\settings.xml <mirrors> <mir

原创 數據分析-ARIMA方法建模步驟總結

ARIMA模型適用於非平穩時間序列數據,其中的I表示差分的次數,適當的差分可使原序列成爲平穩序列後,再進行ARIMA模型的建模。 其建模步驟與ARMA模型類似,分爲5個步驟: 平穩: 通過差分的手段,對非平穩時間序列數據進行平穩操作

原创 數據分析:有關相關性分析的混沌

  相關分析是指對多個具備相關關係的變量進行分析,從而衡量變量間的相關程度或密切程度。相關性可以應用到所有數據的分析過程中,任何事物之間都存在一定的聯繫。相關性用R(相關係數)表示,R的取值範圍是[-1,1] 相關和因果的差異   相

原创 聚類分析

  聚類常用於數據探索或挖掘前期,在沒有做先驗經驗的背景下做的探索性分析,也適用於樣本量較大情況下的數據預處理工作。例如針對企業整體的用戶特徵,在未得到相關只是或經驗之前先根據數據本身特點進行用戶分羣,然後針對不同羣體做進一步分析;例

原创 Matplotlib可視化

   

原创 數據預處理:解決運營數據的共線性問題

 所謂共線性(又稱多重共線性)問題指的是輸入的自變量之間存在較高的先行相關度。共線性問題會導致迴歸模型的文檔行和準確性大大降低,另外,過多無關的維度參與計算也會浪費計算資源和時間。  共線性問題是否常見取決於具體業務場景,常見的具有明

原创 Pandas:基本統計分析

基本統計分析又叫描述性統計分析,一般統計某個變量的最小值,第一個四分位值,中值,第三個四分位值以及最大值。 描述性統計分析函數爲describe,該函數返回值有均值,標準差,最大值,最小值,分位數等。括號中可以帶一些參數,如perce

原创 Pandas:數據分析與處理

1. 分組分析 分組分析是指根據分組字段將分析對象劃分成不同的部分,以對比分析各組之間差異性的一種分析方法。 常用的統計指標有:計數,求和,平均值。 常用命令形式如下: df.groupby(by=[‘分類1’,‘分類2’,…])[‘

原创 數據預處理:將分類和順序數據轉換爲標誌變量

 分類數據和順序數據是常見的數據類型。 Python標誌轉換示例 說明:在本示例中,將模擬有兩列數據分別出現分類數據和順序數據的情況,並通過自定義代碼以及sklearn代碼分別進行標誌轉換。 import pandas as pd

原创 數據統計分析(1):數據分析流程

首先,數據分析能力是一項綜合性的能力。 數據分析過程如下:   1.明確分析目的和思路 1.1 明確分析目的 做任何事情都有一個目標,數據分析也不例外。如果目的明確,所有問題都可以迎刃而解。所以在開展數據分析之前,要想清楚:爲什麼要開展

原创 數據統計分析(4):數據的離散程度描述

極差 極差又被稱爲範圍差或全距(Range),以R表示,是用來表示統計資料中的變異量數,其最大值與最小值之間的差距,即最大值減最小值後所得之數據。 它是標誌值變動的最大範圍,它是測定標誌變動的最簡單的指標。移動極差是其中一種。極差不能用做

原创 機器學習與統計學的差異

【導讀】統計學和機器學習的真正差別。統計學和機器學習在很多情況下是被混淆的,大部分人其實並不能很好的區分二者。介於此,本文詳解的講解了二者實際的差異,非常有指導意義。     很多人並不能很好的區分統計學和機器學習,因爲之間確實有太多的相

原创 11步轉行數據科學家 (送給數據員/ MIS / BI分析師)

數據科學作爲一個專業領域迅速崛起,吸引了來自各種職業背景的人。工程師、計算機科學家、市場和金融畢業生、分析師、人力資源人員——每個人都想嘗一塊 “數據科學餡餅”。   Analytics Vidhya (一個專門針對“分析與數據科學”的社

原创 Pandas 的Merge總結

Pandas Merge pandas 的merge方法提供了一種類似於SQL的內存鏈接操作,官網文檔提到它的性能會比其他開源語言的數據操作(例如R)要高效。 Merge Merge的參數 on: 列名,join用來對齊的那一列名字