原创 os.path.splitext() 的使用方法
#!/usr/bin/env python # -*- coding: utf-8 -*- import urllib import urllib.request import os import requests from lx
原创 bs4 的使用方法
#!/usr/bin/env python # -*- coding: utf-8 -*- # bs4 是三方庫,在調用的時候,要先在cmd中下載 pip install bs4 import bs4 from bs4 import
原创 selenium 使用的相關問題
一、瀏覽器驅動文件(如phantomjs.exe/chromedriver.exe)的自動讀取 1、PhantomJS與chrome的區別: chrome不用說,就是chrome瀏覽器嘛,使用chrome
原创 requests (第三方庫)基於urllib3 使用更加方便
#!/usr/bin/env python # -*- coding: utf-8 -*- # requests 是一個用python語言寫的第三方庫,在使用的時候,需要手動安裝(pip install requests) # 非常好
原创 requests Web客戶端授權驗證
import requests # 登入本機服務器 url = 'http://127.0.0.1:80/' # 服務器驗證,用戶名和密碼 auth = ('Mchael', '123456') # 它的驗證直接在get裏面傳參數
原创 使用handler技術,處理封閉IP的反爬技術
#!/usr/bin/env python # -*- coding: utf-8 -*- import urllib import urllib.request import os # 將用戶名、密碼、ip保存到環境變量中 pr
原创 requests( proxy | post | session ) 使用練習
import requests import os url = 'http://pic.gooooal.com/images/100452/100452654.jpg' # proxies = {'http':'220.184.2
原创 http://www.kfc.com.cn 爬取(案例練習:ajax、post)
#!/usr/bin/env python # -*- coding: utf-8 -*- import urllib import urllib.request import urllib.parse # ajax post po
原创 www.douban.com 爬取 (CookieJar練習 :爬取用戶登入後的響應頁面)
#!/usr/bin/env python # -*- coding: utf-8 -*- import urllib import urllib.request import urllib.parse from http.cooki
原创 知識點
mixin : Less中,允許你將一個類嵌入到另一個類中,被嵌入的類也可以看作變量。換句話說,你可以用一個類定義樣式,然後把它當作變量,在另一個類中,只要引用變量的名字,就能使用它的所有屬性, Less把這種特性稱作 mixin,中文
原创 http://tieba.baidu.com 爬取(案例練習:GET 請求)
#!/usr/bin/env python # -*- coding: utf-8 -*- import urllib.request import urllib.parse import ssl get_url = 'http
原创 關於 Web客戶端的授權認證 反爬處理技術
import urllib import urllib.request # urllib.error.HTTPError: HTTP Error 401: UNAUTHORIZED url = 'http://127.0.0.
原创 使用pycharm對構建FormData格式替換的技巧
''' 在pycharm中,使用command + R 鍵, 可以掉出正則匹配替換 (.*):(.*) # () 分組 "$1": "$2", # zai pycharm中 $代替\ ''' headers
原创 User-Agent反扒
#!/usr/bin/env python # -*- coding:utf-8 -*- import random import requests def load_page(url): """ 作用: 根據url
原创 pip timeout
pip --default-timeout=100 install -U Selenium==2.42.1