原创 Pandas:DataFrame的apply()函數和applymap()函數

1.apply()函數 apply()函數主要作用是對DataFramed的每一column和每一index執行一個處理函數。先來看看apply()函數的參數。 參數 說明 func 函數參數。該函數會應該在dataframe的每一行或每

原创 python:numpy的數據類型及append()、insert()、delete()函數的使用方法

1.numpy numpy和list的區別在於,numpy只能保存同類型數據,在list則可以保存不同類型的數據。numpy的底層是用C語言進行編寫的,所以同樣類型的函數,numpy的計算速度會高於同樣功能的python函數。numpy中

原创 pandas合併拼接的三種方法-join()、merge()及concat()方法

1.join()方法 這個方法通常的使用方式爲caller.join(),其中caller爲DataFrame類型的數據。先來看join()方法中的參數,具體如下: 參數 參數說明 other 要與caller合併拼接的數據。該參數可以接

原创 Hive中的窗口函數:lead()等函數與窗口函數over()一起使用時的問題

總體上Hive中的窗口函數用法和MySQL8.0中窗口函數的用法相似。這篇文章不再詳細介紹Hive中的窗口函數用法,具體可以參考:MySQL中的窗口函數 首先,看下面一段SQL代碼: select feature,feature_nam

原创 Pandas中的GroupBy分組及agg()分組聚合

Pandas中的分組聚合功能其實類似SQL語句中的group by自己及聚合函數用法。具體地,Pandas中支持的分組主要有以下幾種形式。依次介紹如下: 1. 通過函數進行分組 pandas中可以通過定義函數對數據進行分組。 impor

原创 Tableau:如何畫空心的環形圖

首先要說的是,Tableau並不直接支持這種中空的環形圖。在Tableau中畫這種圖的原理其實是將兩個大小不同的餅圖疊加在一起,然後將其中較小的餅圖的顏色改爲空白。這樣在視覺效果上就成了一箇中空的環形圖。具體步驟如下: 第1步: 先製作一

原创 Python畫圖-matplotlib包

1. Matplotlib包 python中非常常用的可視化工具包。而pandas中的畫圖工具與該工具包的用法非常相似,代碼基本都是可以直接遷移過去的。 2.常用操作 (1) 折線圖 import matplotlib.pyplot a

原创 one-hot編碼和啞變量(dummy)編碼

1.One-Hot編碼和啞變量(Dummy Variable)編碼 one-hot編碼和啞變量編碼得到的結果很相似。舉個栗子:   feature1 One-Hot result Dummy result sample1 1 0,0,1

原创 大數據分析-Excel中的函數

1. COUNTIF函數 countif函數的作用是對指定區域按照指定條件對單元格進行計數.COUNIF(range,criteria)函數中有兩個參數,range表示指定的區域範圍,criteria表示的是以數字、文本等定義的條件表達式

原创 Python:numpy中的軸和pandas中的軸

由於對於這裏面當中的理論不是太懂,所以我會直接從一個例子入手。 1.Numpy中的軸 先以2維數組爲例 import numpy as np #創建一個三維數組 data=np.arange(24).reshape(4,6) print

原创 MySQL8.0中的日期類數據及其函數

1.日期類數據類型 類型 ZERO值 有效值 其他 DATE '0000-00-00' ’1000-01-01’~‘9999-12-31’ 允許使用字符串或數字向date類型的列賦值 TIME '00:00:00' '-838:59:59

原创 Python-format格式化輸出函數使用方法

1.format格式化函數 format函數是Python2.6及其以後版本纔有的格式化函數。其使用{}和:來代替原來版本中的%。 2.使用方法 2.1 傳參形式 #下面這種寫法有點類似位置參數的引用方式 print("{} {}".f

原创 MySQL中的interval和elt的使用

1.基礎語法 INTERVAL(N,N1,N2,N3,..........) 如果N<N1,則返回0;如果N1<=N<N2,則返回1,以此類推,如果N爲NULL,則返回-1。N1、N2、N3依次遞增。  ELT(N,str1,str2,

原创 Tableau:數據桶和分佈直方圖

通過數據桶可以將連續型變量離散化。仍然以Tablueau中的自帶的【超市】數據爲例,在【銷售額】字段上創建數據桶,右鍵點擊【銷售額】->【創建】->【數據桶】,打開如下編輯框:  只需要將紅框中的“數據桶大小”參數設置爲自己需要的大小,

原创 Pandas中的交叉透視表及其使用小案例(ARPU用戶掉檔分析)

1.交叉表與透視表 pandas中的交叉表和透視表的功能與Excel中有些類似。其具體如下: 1) 交叉表(crosstab) pandas中的crosstab函數中有幾個常見的參數,具體如下: 參數 參數說明 index 該參數可以接受