原创 隨機user-agent

"Mozilla/5.0 (compatible; MSIE 9.0; Windows NT 6.1; Trident/5.0", "Mozilla/4.0 (compatible; MSIE 8.0; Windows NT

原创 倆個mongodb之間互傳

from pymongo import MongoClient M = MongoClient("***.***.1.***", 27017) N = M.dazhong myset = N.yundong Ml = Mo

原创 從mongo數據庫導入redis數據庫

import redis from pymongo import MongoClient class Run(): #創建類 def __init__(self): m = MongoClient("

原创 爬蟲代理 429 和 503

429 Too Many Requests (太多請求) 如果使用代理報這個錯誤得話 那就是你該限制自己得請求了 服務器有限制,那麼就有對應的策略。你的IP應該已經被判斷出來了。類似反扒措施。 要麼增加ip得請求量 要麼限制自己

原创 爬蟲多線程

# 線程進程 import requests import threading import json from queue import Queue import time ##寫子類 class Thread_crawl(th

原创 爬蟲的思路

## 1、確認抓取的網頁 首先我們要清楚我們需要什麼數據,需要在哪裏爬取,然後找到網頁,選取一部分種子url,將這些url放入待抓取url的隊列,如果有分頁的話,我們可以進行規律分析,然後進行for,或者while循環進行網絡請求,當

原创 正則表達式與貪婪模式

1.定義正則,表示電話號碼、郵箱、URL、IP (1)Email地址:^\w+([-+.]\w+)@\w+([-.]\w+).\w+([-.]\w+)*$ (2)InternetURL:[a-zA-z]+://[^\s]* 或 ^ht

原创 AJAX 是什麼?

AJAX 是一種在無需重新加載整個網頁的情況下,能夠更新部分網頁的技術。 AJAX是什麼 AJAX = Asynchronous JavaScript and XML. AJAX 是一種用於創建快速動態網頁的技術。 AJAX 通過在後

原创 計算機編碼的概念(UTF-8,Unicode,utf-16等都是什麼)

字符集爲每個字符分配了一個唯一的編號,通過這個編號就能找到對應的字符。在編程過程中我們經常會使用字符,而使用字符的前提就是把字符放入內存中,毫無疑問,放入內存中的僅僅是字符的編號,而不是真正的字符實體。 這就拋出了一個問題,如何才能將

原创 瀏覽器渲染頁面的步驟

瀏覽器是如何渲染頁面的 瀏覽器的渲染頁面時,表示網站資源已經請求成功。 渲染時,大致的流程如下: (解析html以構建dom樹->構建render樹->佈局render樹->繪製render樹) 具體的流程如下: 1:瀏覽器會將HT

原创 瀏覽器加載頁面資源的步驟

瀏覽器加載頁面資源的步驟如下(部分參考網絡資料): 1.用戶輸入網址(假設是第一次訪問),瀏覽器向服務器發出請求,服務器返回html文件; 2.瀏覽器開始載入html代碼,發現<head>標籤內有一個<link>標籤引用外部CSS文

原创 爬蟲的實例項目

WechatSogou [1]- 微信公衆號爬蟲。基於搜狗微信搜索的微信公衆號爬蟲接口,可以擴展成基於搜狗搜索的爬蟲,返回結果是列表,每一項均是公衆號具體信息字典。 DouBanSpider [2]- 豆瓣讀書爬蟲。可以爬下豆

原创 Python 異常處理

什麼是異常? 異常既是一個事件,該事件會在程序執行過程中發生,影響了程序的正常執行。 一般情況下,在Python無法正常處理程序時就會發生一個異常。 異常是python對象,表示一個錯誤。 當python腳本發生異常時我們需要捕獲處理

原创 一張圖讓你明白爬蟲和反爬蟲的手段

爬蟲與發爬蟲的廝殺,一方爲了拿到數據,一方爲了防止爬蟲拿到數據,誰是最後的贏家? 重新理解爬蟲中的一些概念 爬蟲:自動獲取網站數據的程序 反爬蟲:使用技術手段防止爬蟲程序爬取數據 誤傷:反爬蟲技術將普通用戶識別爲爬蟲,這種情況多出現在

原创 cookie 和 session 的區別 詳解

應用場景: 登錄網站 ,輸入用戶名密碼的登錄了,等第二天在打開很多的情況下就直接打開了,這個時候用到的一個機制就是cookie session ,一個場景是購物車,添加了商品之後客戶端就可以知道添加了那些商品,而服務端如何判別那,