原创 正則表達式 - 去掉亂碼字符/提取字符串中的中文字符/提取字符串中的大小寫字母 - Python代碼

目錄 1.亂碼符號種類較少,用replace() 2.亂碼字符種類較多,用re.sub() 3.提取字符串中的中文字符 4.提取字符串中的中文字符和數字 5.提取其他 數據清洗的時候一大煩惱就是數據中總有各種亂碼字符,比如!@#¥%……&

原创 Power BI 數據分析可視化軟件入門教程

入   門 l  Power BI 的引導學習 Ø  什麼是Power BI? Power BI 是軟件服務、應用和連接器的集合,它們協同工作以將相關數據來源轉換爲連貫的視覺逼真的交互式見解。   Power BI 簡單且快速,能夠從 E

原创 hive-內置函數(常用內置函數彙總)

show functions; #查看所有內置函數,共271個 show function sum; #查看sum函數的描述信息 show function extended sum; #查看內置函數的描述信息和舉例的使用方法   舉例數

原创 Matplotlib - 折線圖 plot() 所有用法詳解

散點圖和折線圖是數據分析中最常用的兩種圖形。其中,折線圖用於分析自變量和因變量之間的趨勢關係,最適合用於顯示隨着時間而變化的連續數據,同時還可以看出數量的差異,增長情況。 Matplotlib 中繪製散點圖的函數爲 plot() ,使用語

原创 分組統計 - DataFrame.groupby() 所見的各種用法 - Python代碼

目錄 所見 1 :日常用法 所見 2 :解決groupby.sum() 後層級索引levels上移的問題 所見 3 :解決groupby.apply() 後層級索引levels上移的問題 所見 4 :groupby函數的分組結果保存成Da

原创 Python連接MySQL數據庫(pymysql),DataFrame寫入 MySQL(create_engine)- Python代碼

模塊安裝 使用以下命令安裝 PyMySQL: $ pip install PyMySQL 若系統不支持 pip,還可以這樣安裝: $ git clone https://github.com/PyMySQL/PyMySQL $ cd

原创 MySQL - cast()函數

日常建表習慣用 create tabel  tb_name as select......,這種建表方式的其中一個缺點就是:系統會根據查詢出的字段,定義字段類型。有時候會把 '%Y-%m-%d' 格式的日期字段定義爲 varchar 。建

原创 特徵計算 -獲取本週,本月初,本月末,上月同日,本季,本年初,本年末的日期 - (Python、MySQL、Oracle)

數據預處理的過程中,往往需要計算當前日期往前推12個月(或者本週,本月,本季,本年)中間發生的事情, 因此這裏貼上相關處理的代碼: Python代碼: import datetime from datetime import timed

原创 時間序列 - 案例按步驟詳解 -(SPSS建模)

時間序列簡單的說就是各時間點上形成的數值序列,通過觀察歷史數據的變化規律預測未來的值。在這裏需要強調一點的是,時間序列分析並不是關於時間的迴歸,它主要是研究自身的變化規律的。 準備工作:SPSS - 中文版 SPSS 22.0 軟件下載與

原创 線性迴歸 - 多元線性迴歸案例 - 分析步驟、輸出結果詳解、與Python的結果對比 -(SPSS建模)

現在用 Python 寫線性迴歸的博客都快爛大街了,爲什麼還要用 SPSS 做線性迴歸呢?這就來說說 SPSS 存在的原因吧。 SPSS 是一個很強大的軟件,不用編程,不用調參,點巴兩下就出結果了,而且出來的大多是你想要的。這樣的特點特別

原创 DataFrame字符串之分割split()、清洗drop()、合併concat()、重新建立索引reset_index() - (Python)

數據建模之前,我們從數據部門拿到數據,但是這些數據的格式往往並不是我們可以直接使用的,比如下面表中的數據(左:原數據格式)。 原數據格式id自成一列,這個很好,但是標籤和標籤的置信度(這個id屬於這個標籤的可能性) 都在一個單元格里,僅用

原创 hive - 自定義函數(超詳細步驟,手把手的交)

用Java開發自定義函數,步驟: 1.eclipse上新建一個工程project(db2019);   2.導jar依賴包: db2019右鍵 --build path --configure... --add library --use

原创 hive - 解析 json

內置函數:get_json_object(json串,解析路徑) 解析路徑說明: $ :跟對象 . :子對象 [] :數組下標 * :所有 舉例: 數據樣例: {"movie":"1190","rate":"4.8","timestamp

原创 非線性迴歸 - 案例按步驟詳解 -(SPSS建模)

在上一篇時間序列的文章中,偶然發現另一份數據的整體趨勢很符合非線性迴歸關係,那麼就順勢寫一篇非線性迴歸案例的文章吧。 準備工作:SPSS - 中文版 SPSS 22.0 軟件下載與安裝教程 - 【附產品授權許可碼,永久免費】 數據解釋:原

原创 分組統計 - 不同時間顆粒度下,按照秒、分、時、日、周、月、季度、年 GROUP BY 分組統計 - (MySQL)

數據處理時,經常需要:統計不同時間粒度下的數據分佈情況。 例如,網站每天(or每小時)的訪問量,周杰倫每年(or每季度 or每月)的收入等。 首先有一個表叫:table_test,其中 time 列爲最細的時間顆粒度,類型是datetim