原创 Python裝飾器實戰:打造高效性能計時工具

在數據分析工作中,針對百萬,千萬級別的數據進行分析是常有的事情,因此,分析代碼性能的重要性不容忽視,能夠有一個方便快速的測試函數性能的方法,對於我們快速發現性能瓶頸,及時優化,提高項目的開發效率至關重要。 本文介紹如何通過Python裝飾器

原创 Python裝飾器實戰:實現優雅的重試機制

重試機制在編程中是比較常見的場景,主要被用於處理那些可能由於臨時性故障或網絡波動等原因而失敗的操作。 本文介紹如何通過Python裝飾器來實現重試機制,從而能夠在儘量少修改現有代碼的基礎上,給其中某些函數加上重試機制。 1. 概要 關於Py

原创 扔掉print,用icecream來調試你的代碼

print是我們平時寫些python小工具時,最常用的調試工具。因爲開發代碼時,常常通過print將執行流程、變量的值以及其他關鍵信息輸出到控制檯來觀察,以便了解程序執行情況和調試bug。 但是,print的輸出過於簡單,在輸出變量內容,函

原创 藉助Numpy,優化Pandas的條件檢索代碼

Numpy其實是最早的處理數據的Python庫,它的核心ndarray對象,是一個高效的n維數組結構。 通過這個庫,可以高效的完成向量和矩陣運算,由於其出色的性能,很多其他的數據分析,科學計算或者機器學習相關的Python庫都或多或少的依賴

原创 Pandas:如何讓你的代碼性能飆升

在數據分析相關的工作中,Pandas無疑是一個強大的工具,它的易用性和靈活性廣受青睞。然而,隨着數據量的不斷增長和計算需求的日益複雜,Pandas代碼的性能問題也逐漸浮出水面。如何讓Pandas代碼運行得更快、更高效,成爲了每一個人使用者都

原创 掌握python的dataclass,讓你的代碼更簡潔優雅

dataclass是從Python3.7版本開始,作爲標準庫中的模塊被引入。隨着Python版本的不斷更新,dataclass也逐步發展和完善,爲Python開發者提供了更加便捷的數據類創建和管理方式。 dataclass的主要功能在於幫助

原创 pandas:如何保存數據比較好?

我們在使用pandas處理完數據之後,最終總是要把數據作爲一個文件保存下來,那麼,保存數據最常用的文件是什麼呢?我想大部分人一定會選擇csv或者excel。 剛接觸數據分析時,我也是這麼選擇的,不過,今天將介紹幾種不一樣的存儲數據的文件格式

原创 pandas DataFrame內存優化技巧:讓數據處理更高效

Pandas無疑是我們數據分析時一個不可或缺的工具,它以其強大的數據處理能力、靈活的數據結構以及易於上手的API贏得了廣大數據分析師和機器學習工程師的喜愛。 然而,隨着數據量的不斷增長,如何高效、合理地管理內存,確保Pandas DataF

原创 Pandas導出美化技巧,讓你的Excel更出衆

pandas的DataFrame可以通過設置參數使得在jupyter notebook中顯示的更加美觀,但是,將DataFrame的數據導出excel時,卻只能以默認最樸素的方式將數據寫入excel。 本文介紹一種簡單易用,讓導出的exce

原创 輕鬆駕馭Python格式化:5個F-String實用技巧分享

F-String(格式化字符串字面值)是在Python 3.6中引入的,它是一種非常強大且靈活的字符串格式化方法。 它允許你在字符串中嵌入表達式,這些表達式在運行時會被求值並轉換爲字符串,這種特性使得F-String在編寫Python代碼時

原创 機器學習面試中常見問題整理

機器學習(ML)作爲目前一個比較火領域,提供了許多有趣且高薪的工作和機會。 無論你是剛剛踏入機器學習領域的新手,還是已經積累了一定經驗的從業者,面試都是檢驗你技能和知識的重要環節。本文將梳理一些常見的面試問題,讓你在面試中更加自信從容。 1

原创 告別os.path,擁抱pathlib

pathlib 模塊是在Python3.4版本中首次被引入到標準庫中的,作爲一個可選模塊。從Python3.6開始,內置的 open 函數以及 os 、 shutil 和 os.path 模塊中的各種函數都可以正確地使用 pathlib.P

原创 pandas plot函數:數據可視化的快捷通道

一般來說,我們先用pandas分析數據,然後用matplotlib之類的可視化庫來顯示分析結果。而pandas庫中有一個強大的工具--plot函數,可以使數據可視化變得簡單而高效。 1. plot 函數簡介 plot函數是pandas中用於

原创 掌握pandas cut函數,一鍵實現數據分類

pandas中的cut函數可將一維數據按照給定的區間進行分組,併爲每個值分配對應的標籤。其主要功能是將連續的數值數據轉化爲離散的分組數據,方便進行分析和統計。 1. 數據準備 下面的示例中使用的數據採集自王者榮耀比賽的統計數據。數據下載地址

原创 分組聚合不再難:Pandas groupby使用指南

處理大量數據時,經常需要對數據進行分組和彙總,groupby爲我們提供了一種簡潔、高效的方式來實現這些操作,從而簡化了數據分析的流程。 1. 分組聚合是什麼 分組是指根據一個或多個列的值將數據分成多個組,每個組包含具有相同鍵值(這裏的鍵值即