原创 使用fake_useragent隨機生成user_agent

在爬蟲爬取網站的過程中,難免遇到網站通過useragent驗證是否爲正常用戶。可以自己維護一個ua列表,但是爲了方便,我們可以使用一個python三方庫fake_useragent來隨機生成ua,具體步驟如下: ( 1 ) 安裝f

原创 scikit-learn:降維算法PCA和SVD

class sklearn.decomposition.PCA ( n_components=None, copy=True, whiten=False, svd_solve

原创 爬蟲:解決亂碼問題

import chardet # 解決亂碼問題 code = chardet.detect(response.content)["encoding"] # 獲取編碼格式 res

原创 Python 使用 attrs 和 cattrs 實現面向對象編程

Python 是支持面向對象的,很多情況下使用面向對象編程會使得代碼更加容易擴展,並且可維護性更高,但是如果你寫的多了或者某一對象非常複雜了,其中的一些寫法會相當相當繁瑣,而且我們會經常碰到對象和 JSON 序列化及反序列化的問題

原创 Python3.7中的Dataclasses

原文鏈接:https://medium.com/mindorks/understanding-python-dataclasses-part-2-660ecc11c9b8 參考:https://linux.cn/article-9

原创 PicGo+GitHub圖牀+Typora

先來一張照片 ! 哈哈哈 typora 官網:https://www.typora.io/ PicGo介紹 github:https://github.com/Molunerfinn/PicGo/releases 這

原创 經典SQL練習50題( Mysql 版)

基於別人整理的習題,自己進行了練習並進行了整理。與原作者的相比,此版本的答案用到了一些 排序函數如 ROW_NUMBER DENSE_RANK 等! IDEA: DataGrip /* 學生表: Student(s_id,s_na

原创 scikit-learn:邏輯迴歸

2 class sklearn.linear_model.LogisticRegression (penalty=’l2’, dual=False, tol=0.

原创 pyecharts圖表庫學習

pyecharts 文檔 安裝pyecharts pip install pyecharts install echarts-themes-pypkg 如果安裝出錯,則可指定安裝的版本號 安裝另一個版本的pyecharts,具

原创 爬蟲練習(一):模擬登錄並爬取表格數據(提交表單數據)

內容有: 通過requests庫模擬表單提交 通過pandas庫提取網頁表格 目標分析 網址是這個:https://www.ctic.org/crm?tdsourcetag=s_pctim_aiomsg 打開長這樣: 點擊

原创 chardet庫:識別文件的編碼格式

chardet庫文檔:https://chardet.readthedocs.io/en/latest/usage.html 模塊介紹 Chardet:通用字符編碼檢測器 檢測字符集範圍: ASCII,UTF-8,UTF-16(2

原创 numpy.datetime64()日期函數

Basic Datetimes 創建數據時間的最基本的方法是使用ISO 8601日期或日期時間格式的字符串。內部存儲單元是從字符串的形式自動選擇的,可以是date unit或time unit。 日期單位是年(‘Y’),月(‘M’

原创 pyecharts圖表庫學習:Pie(餅圖)

餅圖主要用於表現不同類目的數據在總和中的佔比。每個的弧度表示數據數量的比例。 Pie.add()方法簽名 add(name, attr, value, radius=None, center=None, r

原创 Python操作MongoDB

Python 3下MongoDB的存儲操作。 在開始之前,請確保已經安裝好了MongoDB並啓動了其服務,並且安裝好了Python的PyMongo庫。 2. 連接MongoDB 連接MongoDB時,我們需要使用PyMongo庫裏