原创 淺談進程和線程的個人理解

#進程和線程 首先什麼是進程? 進程是操作系統動態執行的基本單元,進程就可以說是一段程序的執行過程,當我們有很多程序同時執行時,就有了一種類似於排隊的模式,就如說我們去銀行櫃檯取錢,爲了同時進行,我們可以規定讓每個人一次只能取50

原创 爬蟲中requests方法封裝post和get原理

from urllib import request,parse from urllib.error import HTTPError,URLError #從下面的urlrequest詳細封裝了post方法函數 def pos

原创 用scrapy框架爬取微博所有人的微博內容的

import scrapy import json import re import datetime import time from w3lib.html import remove_tags import math

原创 用scrapy框架爬取拉勾網的全站招聘信息

## 文章開頭做個說明,拉勾網的反爬機制爲利用scrapy框架的cookie來識別你的身份,所以要在settings裏面的COOKIES_ENABLED = False的註釋打開,然後再全局裏面加上拉勾網自己的cookie信息,然後程

原创 獲取代理ip的類

import requests #這是一個用來獲取並更新代理ip的類 class GetProxy(object): #初始化就擁有一個代理ip和requsets裏面需要的proxy def __init__(self):

原创 用多進程爬取西刺代理能用的proxy

import requests from lxml import etree import time # 424.13342022895813 import multiprocessing from multiprocessing imp

原创 一個簡單的用chromedrive實現自動登錄 並且破解登錄的驗證碼

from selenium import webdriver import time import requests from lxml import etree import base64 #操作瀏覽器 def getheaders()

原创 用代理的方式爬取boss直聘的信息

import requests from bs4 import BeautifulSoup from get_proxy import GetProxy from urllib import parse from day03.pymysq

原创 爬蟲簡單封裝post和get方法

from urllib import request,parse from urllib.error import HTTPError,URLError #從下面的urlrequest詳細封裝了post方法函數 def post(ur

原创 今日頭條的街拍圖片的簡單自動爬取

import requests import re,os import json from urllib import request #定義一個函數 def tout(url): #定義頭部信息 headers = {

原创 一個簡單的爬取一個電影網的磁力鏈接

import requests from lxml import etree from urllib import parse import re #定義一個函數 def ygdy(baseurl): headers ={

原创 用cookie來通過一個簡單的登錄驗證的爬蟲方法

from urllib import request,parse from urllib.error import HTTPError,URLError from http import cookiejar #定義一個類用來實現coo

原创 封裝了一個函數用來實現全自動爬取雪球網的數據

import requests import json from pymysql_text import Mysql_text # url = 'https://xueqiu.com/v4/statuses/public_timeline

原创 用代碼實現通過人人網的登錄

from day01.fengzhuang3 import post,get import json from urllib import request,parse #保存cookie from http import cookiej

原创 爬妹子圖的爬蟲小程序

import requests import os from lxml import etree from urllib import request import random #定義一個函數 def meizitu(url):