原创 python筆記:multiprocessing 函數apply和apply_async有什麼區別?

直接上結論: apply()和apply_async().get()可以說是一樣的,但在處理task上有點不一樣。 使用apply_async().get相對節省時間。 一、爲什麼兩者可以說是一樣的? 首先扯點歷史(鏈接)

原创 ML筆記:分類算法之SVM

注:本文幾乎所有東西都不是原創,但鑑於來源複雜不易查明、僅作爲個人筆記查詢,故不再一一插入鏈接。如有侵權,立刪。 1. SVM是什麼? Support Vector Machine。一個普通的SVM就是一條直線,用來完美劃分lin

原创 ML:常見判斷類模型好壞指標 - 混淆矩陣 & ROC曲線 & AUC & 其他

混淆矩陣 前提概念 縮寫 全拼 含義 TP True Positive 預測對了,預測了“Positive” FN False Negative 預測錯了,預測了“Negetive” FP False

原创 python筆記:df.plot()常見的座標軸的操作,及正常顯示負號

一、 座標軸的label(stackoverflow鏈接) 根據pandas官方文檔: The plot method on Series and DataFrame is just a simple wrapper aroun

原创 ML:非監督學習之 聚類 之 1 KMeans聚類(sklearn.cluster.KMeans)

一、算法圖解 首先,圖a & 圖b:指定cluster的個數。上圖設k=2(初始點爲從圖b開始出現的“+”號); 其次,圖c:把每個數據樣本劃到到最近的中心點那一cluster; 再次,圖d & 圖e:指第一輪化cluster

原创 時間序列筆記:python中如何用差分消趨勢和季節性因素

時間序列模型:嚴格來說包含4個要素,Trend/趨勢、Circle/循環、Seasonal /季節性和不規則要素。但是實際中C和S差不代指同一個東西。 一組時間序列數據有可能包含T和S,這都導致數據集不平穩。因爲T會造成均值跟

原创 python筆記:sklearn r2_score和explained_variance_score的本質區別是什麼?

Q:我知道r2_score表示的是在總變變量中模式解釋的百分比。但是explained_variance_score和它有什麼區別? A:從公式的差別角度看: 當殘差的均值爲0時,它倆是一樣的。至於用哪個,就看你有沒有假設殘差均值

原创 ML:非監督學習之 聚類 之 2 DBSAN聚類(sklearn.cluster.dbscan))

一、算法圖解 DBSCAN:Dense-Based Spatial Clustering of Applications with Noise(基於密度的&帶噪點的空間聚類應用方法) 舉個栗子: 此處潛在設定條件:Min_sm

原创 ML:決策樹的優略點

用於分類和迴歸 一、優點 簡單易懂,條理清晰,可以用圖畫出來; 需要較少的數據預處理,計算量不大。其他算法常常需要數據標準化、刪除空值、創建虛擬變量。需要注意的是,此處模型不支持缺失值; Tree的使用成本(例如預測)等於訓練數

原创 python筆記:DataFrame - 透視統計非重複個數

例如,有如下數字: df = pd.DataFrame({'a': ['A', 'A', 'A', 'B', 'C'], 'b': ['H', 'H', 'I', 'J', 'J']}) pr

原创 MYSQL(8.0版本及以上)- utf8mb3,utf8mb4 和utf8的含義和由來

官方文檔:MySQL 8.0 Reference Manual: 10.9.2 The utf8mb3 Character Set (3-Byte UTF-8 Unicode Encoding) 首先,上結論: 國際上的UTF

原创 python筆記:UserWarning: This pattern has match groups. To actually get the groups, use str.extract.

df = pd.DataFrame({'name': ['A(上海)AAA', 'BB(上海)BB', 'CCC', 'DDD'] }) print(df) # 結果如下 na

原创 手工獲取SARIMA模型參數的簡介

背景:SARIMA,簡單說就是AR+MA+差分+季節性因素+趨勢。所以參數在statsmodels.tsa.statespace.sarimax.SARIMAX裏邊,用3個指標涵蓋核心參數,order(p,d,q)、season

原创 Pandas:多維透視表 - 如何重複項目標籤 同時 不顯示columns字段名稱

來源:How do I flatten a python/pandas pivot table and manipulate the column names?鏈接這裏。 問題:把一般情況下得到的透視表,變成想要的格式: ""

原创 翻譯:提高既定數據集下的模型效果——交叉驗證(CrossValidaton)

官方文檔鏈接 數據給定&模型給定的前提下,怎麼提高訓練模型的效果? 數據和模型給定之後,我們只有一條路:提高數據的利用效率。方法有兩個: 1)使用train_test_split函數分成訓練集和測試集; 2)通過CrossValidato