原创 BeatuifulSoup4

基本使用 from bs4 import BeautifulSoup html = """ <div>test</div> """ # 第二個參數指定解釋器: # 默認html.parser,容錯性差 # lxml速度快,需要安

原创 pymongo怎麼根據ObjectId類型的字段刪除數據

from pymongo import MongoClient from bson.objectid import ObjectId client = MongoClient() articles = client['node-

原创 用正則表達式爬取古詩詞網

中國古詩詞網 import requests import re from pymongo import MongoClient class Poetry: def __init__(self):

原创 python實現下載圖片和視頻

import requests url = "視頻圖片地址" r = requests.get(url, stream=True) if r.status_code == 200: open('視頻圖片存放位置', 'wb

原创 MongoDB增刪改查命令+高級查詢+備份恢復

數據庫的基本命令 show dbs 展示當前所有數據庫 use db_name 切換數據庫 db.dropDatabase() 刪除數據庫 db當前數據庫 集合的基本命令 db.createCollection(nam

原创 搜索查找指令

find從指定目錄向下遞歸遍歷其各個子目錄,將滿足條件的文件或者目錄顯示在終端 find [搜索範圍] [選項] 按文件名查找/home查找a.txt文件 [root@localhost home]# find /home

原创 Python3 List sort()方法

sort()方法默認按升序排列 numList = [7, 3, 11, 23, 4, 8] numList.sort() print(numList) 輸出:[3, 4, 7, 8, 11, 23] 降序排序需要添加re

原创 系統的運行級別和幫助指令

指定運行級別 依次爲: 關機0 單用戶1 多用戶無網絡2 多用戶有網絡3 保留4 圖形界面5 重啓6 系統的運行級別配置文件:/etc/inittab CenOS 7該配置文件已經不在使用 切換到指定運行級別的指令:

原创 用戶管理

linux系統是一個多用戶多任務的操作系統,任何一個要使用系統資源的用戶,都必須首先向系統管理員申請一個賬號,然後以這個賬號的身份進入系統。linux用戶至少要屬於一個組。 添加用戶 useradd [選項] 用戶名 [r

原创 mac下安裝tesseract識別圖片

安裝 brew install tesseract python操作tesseract 識別英文 import pytesseract from PIL import Image img = Image.open(

原创 MongoDB聚合aggregate

聚合aggregate 聚合是基於數據處理的聚合管道,每個文檔通過一個由多個階段組成的管道,可以對每個階段的管道進行分組,過濾等功能,然後經過一系列的處理,輸出相應的結果。 在管道中,一個管道的輸出作爲下一個管道的輸入。

原创 requests+lxml+xpath

requests庫 獲得html頁面 import requests r = requests.get(url) r.content.decode() 或 r.text() 發送帶header的請求 headers = {"Us

原创 文件目錄指令

pwd 顯示當前工作目錄的絕對路徑 [root@localhost ~]# pwd /root ls [選項] [目錄或文件] -a :顯示當前目錄所有的文件和目錄,包括隱藏的。 -l:以列表的形式顯示 [root@

原创 python的正則表達式用法

match函數 import re # 匹配某個字符串 text = 'hello' # match接受兩個參數(正則表達式,要匹配的字符串),從字符串的頭開始匹配,如果第一個字符不匹配就認爲找不到 res = re.mat

原创 病毒+蠕蟲+bot+rootkit

惡意軟件類型 惡意軟件大概分爲兩種類型:依附於宿主和獨立於宿主程序。 前者被稱爲寄生程序,其本質不能獨立於應用程序,實用程序,操作系統而獨立存在的程序片段,例如,病毒,後門,邏輯炸彈。後者是可以被操作系統調度和執行的獨立程