原创 Google搜索操作符:讓你秒變搜索專家

搜索引擎對互聯網的重要性不言而喻,不過,隨着ChatGPT及其類似AI工具的推出,對搜索引擎帶來了前所未有的挑戰。 因爲ChatGPT具有自然語言處理能力,能夠更好地理解用戶的搜索意圖,提供更準確、更相關的搜索結果。同時,還可以根據用戶的搜

原创 跨界協作:藉助gRPC實現Python數據分析能力的共享

gRPC是一個高性能、開源、通用的遠程過程調用(RPC)框架,由Google推出。它基於HTTP/2協議標準設計開發,默認採用Protocol Buffers數據序列化協議,支持多種開發語言。 在gRPC中,客戶端可以像調用本地對象一樣直接

原创 藉助Rich庫實現Pandas DataFrame顏值升級

pandas的DataFrame功能強大自不必說,它可以幫助我們極大的提高統計分析的效率。 不過,使用DataFrame開發我們的分析程序的時候,經常需要打印出DataFrame的內容,以驗證和調試數據的處理是否正確。 在命令行中雖然可以直

原创 Python Rich:美化終端顯示效果

Rich庫的功能就像它的名字一樣,使Python編程更加豐富(rich),它幫助開發者在控制檯(命令行)輸出中創建豐富、多彩和具有格式化的文本。 本篇總結了如何使用Rich庫讓我們的命令行工具更加美觀。 1. 安裝 通過pip安裝: pip

原创 【scikit-learn基礎】--模型持久化

模型持久化(模型保存與加載)是機器學習完成的最後一步。因爲,在實際情況中,訓練一個模型可能會非常耗時,如果每次需要使用模型時都要重新訓練,這無疑會浪費大量的計算資源和時間。 通過將訓練好的模型持久化到磁盤,我們可以在需要使用模型時直接從磁盤

原创 Python Fire:更加靈活的命令行參數

之前介紹過Python的Fire庫,一個用來生成命令行工具的的庫。請參考:Python Fire:自動生成命令行接口 今天,針對命令行參數,補充兩種更加靈活的設置方式。 1. *args 型參數 *args型的參數可以接受任意長度的參數。比

原创 【scikit-learn基礎】--『分類模型評估』之評估報告

分類模型評估時,scikit-learn提供了混淆矩陣和分類報告是兩個非常實用且常用的工具。它們爲我們提供了詳細的信息,幫助我們瞭解模型的優缺點,從而進一步優化模型。 這兩個工具之所以單獨出來介紹,是因爲它們的輸出內容特別適合用在模型的評估

原创 【scikit-learn基礎】--『分類模型評估』之係數分析

前面兩篇介紹了分類模型評估的兩類方法,準確率分析和損失分析,本篇介紹的傑卡德相似係數和馬修斯相關係數爲我們提供了不同的角度來觀察模型的性能,尤其在不平衡數據場景中,它們更能體現出其獨特的價值。 接下來,讓我們一起了解這兩個評估指標的原理與特

原创 Python Fire:自動生成命令行接口

命令行程序是平時寫一些小工具時最常用的方式。 爲了讓命令行程序更加靈活,我們常常會設置一些參數,根據參數讓程序執行不同的功能。這樣就不用頻繁的修改代碼來執行不同的功能。 隨着命令行程序功能的豐富,也就是參數多了以後,解析和管理參數之間的關係

原创 【scikit-learn基礎】--『迴歸模型評估』之損失分析

分類模型評估中,通過各類損失(loss)函數的分析,可以衡量模型預測結果與真實值之間的差異。不同的損失函數可用於不同類型的分類問題,以便更好地評估模型的性能。 本篇將介紹分類模型評估中常用的幾種損失計算方法。 1. 漢明損失 Hamming

原创 pandas高效讀取大文件的探索之路

使用 pandas 進行數據分析時,第一步就是讀取文件。在平時學習和練習的過程中,用到的數據量不會太大,所以讀取文件的步驟往往會被我們忽視。 然而,在實際場景中,面對十萬,百萬級別的數據量是家常便飯,即使千萬,上億級別的數據,單機處理也問題

原创 【scikit-learn基礎】--『迴歸模型評估』之準確率分析

分類模型的評估和迴歸模型的評估側重點不一樣,迴歸模型一般針對連續型的數據,而分類模型一般針對的是離散的數據。 所以,評估分類模型時,評估指標與迴歸模型也很不一樣,比如,分類模型的評估指標通常包括準確率、精確率、召回率和F1分數等等。而迴歸模

原创 【scikit-learn基礎】--『迴歸模型評估』之可視化評估

在scikit-learn中,迴歸模型的可視化評估是一個重要環節。它幫助我們理解模型的性能,分析模型的預測能力,以及檢查模型是否存在潛在的問題。通過可視化評估,我們可以更直觀地瞭解迴歸模型的效果,而不僅僅依賴於傳統的評估指標。 1. 殘差圖

原创 【scikit-learn基礎】--『迴歸模型評估』之偏差分析

模型評估在統計學和機器學習中具有至關重要,它幫助我們主要目標是量化模型預測新數據的能力。 本篇主要介紹模型評估時,如何利用scikit-learn幫助我們快速進行各種偏差的分析。 1. **R² ** 分數 R² 分數(也叫決定係數),用於

原创 【scikit-learn基礎】--『迴歸模型評估』之誤差分析

模型評估在統計學和機器學習中具有至關重要,它幫助我們主要目標是量化模型預測新數據的能力。 在這個數據充斥的時代,沒有評估的模型就如同盲人摸象,可能帶來誤導和誤判。模型評估不僅是一種方法,更是一種保障,確保我們在數據海洋中航行時,能夠依賴準確