原创 os.path.splitext() 的使用方法

#!/usr/bin/env python # -*- coding: utf-8 -*- import urllib import urllib.request import os import requests from lx

原创 bs4 的使用方法

#!/usr/bin/env python # -*- coding: utf-8 -*- # bs4 是三方庫,在調用的時候,要先在cmd中下載 pip install bs4 import bs4 from bs4 import

原创 selenium 使用的相關問題

一、瀏覽器驅動文件(如phantomjs.exe/chromedriver.exe)的自動讀取        1、PhantomJS與chrome的區別:           chrome不用說,就是chrome瀏覽器嘛,使用chrome

原创 requests (第三方庫)基於urllib3 使用更加方便

#!/usr/bin/env python # -*- coding: utf-8 -*- # requests 是一個用python語言寫的第三方庫,在使用的時候,需要手動安裝(pip install requests) # 非常好

原创 requests Web客戶端授權驗證

import requests # 登入本機服務器 url = 'http://127.0.0.1:80/' # 服務器驗證,用戶名和密碼 auth = ('Mchael', '123456') # 它的驗證直接在get裏面傳參數

原创 使用handler技術,處理封閉IP的反爬技術

#!/usr/bin/env python # -*- coding: utf-8 -*- import urllib import urllib.request import os # 將用戶名、密碼、ip保存到環境變量中 pr

原创 requests( proxy | post | session ) 使用練習

import requests import os url = 'http://pic.gooooal.com/images/100452/100452654.jpg' # proxies = {'http':'220.184.2

原创 http://www.kfc.com.cn 爬取(案例練習:ajax、post)

#!/usr/bin/env python # -*- coding: utf-8 -*- import urllib import urllib.request import urllib.parse # ajax post po

原创 www.douban.com 爬取 (CookieJar練習 :爬取用戶登入後的響應頁面)

#!/usr/bin/env python # -*- coding: utf-8 -*- import urllib import urllib.request import urllib.parse from http.cooki

原创 知識點

mixin :  Less中,允許你將一個類嵌入到另一個類中,被嵌入的類也可以看作變量。換句話說,你可以用一個類定義樣式,然後把它當作變量,在另一個類中,只要引用變量的名字,就能使用它的所有屬性, Less把這種特性稱作 mixin,中文

原创 http://tieba.baidu.com 爬取(案例練習:GET 請求)

#!/usr/bin/env python # -*- coding: utf-8 -*- import urllib.request import urllib.parse import ssl get_url = 'http

原创 關於 Web客戶端的授權認證 反爬處理技術

  import urllib import urllib.request # urllib.error.HTTPError: HTTP Error 401: UNAUTHORIZED url = 'http://127.0.0.

原创 使用pycharm對構建FormData格式替換的技巧

''' 在pycharm中,使用command + R 鍵, 可以掉出正則匹配替換 (.*):(.*) # () 分組 "$1": "$2", # zai pycharm中 $代替\ ''' headers

原创 User-Agent反扒

#!/usr/bin/env python # -*- coding:utf-8 -*- import random import requests def load_page(url): """ 作用: 根據url

原创 pip timeout

pip  --default-timeout=100 install -U Selenium==2.42.1