原创 pandas plot函數:數據可視化的快捷通道

一般來說,我們先用pandas分析數據,然後用matplotlib之類的可視化庫來顯示分析結果。而pandas庫中有一個強大的工具--plot函數,可以使數據可視化變得簡單而高效。 1. plot 函數簡介 plot函數是pandas中用於

原创 掌握pandas cut函數,一鍵實現數據分類

pandas中的cut函數可將一維數據按照給定的區間進行分組,併爲每個值分配對應的標籤。其主要功能是將連續的數值數據轉化爲離散的分組數據,方便進行分析和統計。 1. 數據準備 下面的示例中使用的數據採集自王者榮耀比賽的統計數據。數據下載地址

原创 分組聚合不再難:Pandas groupby使用指南

處理大量數據時,經常需要對數據進行分組和彙總,groupby爲我們提供了一種簡潔、高效的方式來實現這些操作,從而簡化了數據分析的流程。 1. 分組聚合是什麼 分組是指根據一個或多個列的值將數據分成多個組,每個組包含具有相同鍵值(這裏的鍵值即

原创 別再低效篩選數據了!試試pandas query函數

數據過濾在數據分析過程中具有極其重要的地位,因爲在真實世界的數據集中,往往存在重複、缺失或異常的數據。pandas提供的數據過濾功能可以幫助我們輕鬆地識別和處理這些問題數據,從而確保數據的質量和準確性。 今天介紹的query函數,爲我們提供

原创 Google搜索操作符:讓你秒變搜索專家

搜索引擎對互聯網的重要性不言而喻,不過,隨着ChatGPT及其類似AI工具的推出,對搜索引擎帶來了前所未有的挑戰。 因爲ChatGPT具有自然語言處理能力,能夠更好地理解用戶的搜索意圖,提供更準確、更相關的搜索結果。同時,還可以根據用戶的搜

原创 跨界協作:藉助gRPC實現Python數據分析能力的共享

gRPC是一個高性能、開源、通用的遠程過程調用(RPC)框架,由Google推出。它基於HTTP/2協議標準設計開發,默認採用Protocol Buffers數據序列化協議,支持多種開發語言。 在gRPC中,客戶端可以像調用本地對象一樣直接

原创 藉助Rich庫實現Pandas DataFrame顏值升級

pandas的DataFrame功能強大自不必說,它可以幫助我們極大的提高統計分析的效率。 不過,使用DataFrame開發我們的分析程序的時候,經常需要打印出DataFrame的內容,以驗證和調試數據的處理是否正確。 在命令行中雖然可以直

原创 Python Rich:美化終端顯示效果

Rich庫的功能就像它的名字一樣,使Python編程更加豐富(rich),它幫助開發者在控制檯(命令行)輸出中創建豐富、多彩和具有格式化的文本。 本篇總結了如何使用Rich庫讓我們的命令行工具更加美觀。 1. 安裝 通過pip安裝: pip

原创 【scikit-learn基礎】--模型持久化

模型持久化(模型保存與加載)是機器學習完成的最後一步。因爲,在實際情況中,訓練一個模型可能會非常耗時,如果每次需要使用模型時都要重新訓練,這無疑會浪費大量的計算資源和時間。 通過將訓練好的模型持久化到磁盤,我們可以在需要使用模型時直接從磁盤

原创 Python Fire:更加靈活的命令行參數

之前介紹過Python的Fire庫,一個用來生成命令行工具的的庫。請參考:Python Fire:自動生成命令行接口 今天,針對命令行參數,補充兩種更加靈活的設置方式。 1. *args 型參數 *args型的參數可以接受任意長度的參數。比

原创 【scikit-learn基礎】--『分類模型評估』之評估報告

分類模型評估時,scikit-learn提供了混淆矩陣和分類報告是兩個非常實用且常用的工具。它們爲我們提供了詳細的信息,幫助我們瞭解模型的優缺點,從而進一步優化模型。 這兩個工具之所以單獨出來介紹,是因爲它們的輸出內容特別適合用在模型的評估

原创 【scikit-learn基礎】--『分類模型評估』之係數分析

前面兩篇介紹了分類模型評估的兩類方法,準確率分析和損失分析,本篇介紹的傑卡德相似係數和馬修斯相關係數爲我們提供了不同的角度來觀察模型的性能,尤其在不平衡數據場景中,它們更能體現出其獨特的價值。 接下來,讓我們一起了解這兩個評估指標的原理與特

原创 Python Fire:自動生成命令行接口

命令行程序是平時寫一些小工具時最常用的方式。 爲了讓命令行程序更加靈活,我們常常會設置一些參數,根據參數讓程序執行不同的功能。這樣就不用頻繁的修改代碼來執行不同的功能。 隨着命令行程序功能的豐富,也就是參數多了以後,解析和管理參數之間的關係

原创 【scikit-learn基礎】--『迴歸模型評估』之損失分析

分類模型評估中,通過各類損失(loss)函數的分析,可以衡量模型預測結果與真實值之間的差異。不同的損失函數可用於不同類型的分類問題,以便更好地評估模型的性能。 本篇將介紹分類模型評估中常用的幾種損失計算方法。 1. 漢明損失 Hamming

原创 pandas高效讀取大文件的探索之路

使用 pandas 進行數據分析時,第一步就是讀取文件。在平時學習和練習的過程中,用到的數據量不會太大,所以讀取文件的步驟往往會被我們忽視。 然而,在實際場景中,面對十萬,百萬級別的數據量是家常便飯,即使千萬,上億級別的數據,單機處理也問題