原创 3 Error: Cannot find module 'jsdom'

指定絕對路徑 python在使用execjs執行js也可以指定node_modules路徑,這樣就不需要進行環境變量的添加了。 js_code = open("toutiao_signature.js", "r", encoding="ut

原创 python 刪除pdf 圖片

import os import fitz doc = fitz.open('D:\888\888\\6.pdf') imgcount = 0for page in doc: imageList = page.get_images

原创 docker nodejs jsdom 打鏡像

nodejs 下載地址:https://nodejs.org/dist/v14.15.1/   nodejs node-v14.15.1-linux-x64 (2).tar.gz RUN npm install -y jsdom@21

原创 python 批量刪除 redis 大量數據

#!/usr/bin/env python # Scan and delete keys in Redis. # Author: cdfive from redis import Redis import time def Redis

原创 該方法實現網頁編碼的自動識別和轉換

"""該方法實現網頁編碼的自動識別和轉換"""# python 第三方庫chardet不可靠,把gbk編碼解析成 Windows-1254@retry(stop_max_attempt_number=5, wait_random_min=2

原创 如果是不創建新瀏覽器窗口,直接在已打開的瀏覽器,則代碼需要修改爲:

如果是不創建新瀏覽器窗口,直接在已打開的瀏覽器,則代碼需要修改爲: caps = DesiredCapabilities.CHROMEcaps['loggingPrefs'] = {'performance': 'ALL'} options

原创 python 1970年以前 字符串轉換時間戳

代碼1       from datetime import datetime result = '1970-01-01 07:00:00' time_1 = '1966-07-17 06:03:00' if ti

原创 py_bloomfilter.py

import mmh3 import redis import math import time class PyBloomFilter(): #內置100個隨機種子 SEEDS = [543, 460, 171, 8

原创 selenium 速度慢的問題

# -*- coding: utf-8 -*-'''createTime : 2022-08-04 10:22@software: : spiderSystemauthor :@File : spider_0_douy

原创 pycharm 使用 git

Pycharm 使用git 詳細教程   1. 安裝git 插件 File>setting>plugins 搜索 GitToolBox 點擊安裝即可   2. Git 初始化   3. 克隆項目         點擊 Clone 無法克隆,

原创 提取段落

from lxml import etree from lxml.html import fromstring, tostring wb_data = """ <div class="text" id=

原创 python redis 數據壓縮存儲寫入和讀取

def spider(): a = "%7B%221%22%3A%7B%22envService%22%3A%22prod%22%2C%22abTestData%22%3A%7B%22themeChange%22%3A1

原创 selenium 切換標籤頁和獲取所有標籤頁信息

windows = driver.current_window_handle #定位當前頁面句柄 all_handles = driver.window_handles #獲取全部頁面句柄 for handle in all_handl