原创 爬蟲——post請求,代理,cookie

發起post請求 改寫def start_requests(self): 封裝參數字典格式 回調函數yield scrapy.FormRequest(url=url, formdata=data, callback=self.par

原创 爬蟲——phantomJs

PhantomJS是一款無界面的瀏覽器, 驅動下載: http://phantomjs.org/download.html 流程與selenium一致,只是改了webdriver 的瀏覽器類型和驅動目錄,增加了截屏功能bro.save

原创 爬蟲——需求:獲取豆瓣電影中動態加載出更多電影詳情數據

# 需求:獲取豆瓣電影中動態加載出更多電影詳情數據 # 思路:喜劇排行榜,ajax請求,20條,頁面滾動加載 # # 瀏覽器打開網址--模擬瀏覽器滾動--怎麼滾動頁面?執行js代碼。怎麼抓取?不用重新發請求 from seleniu

原创 爬蟲——練習分頁爬取糗事百科熱圖,保存圖片到本地

os模塊操作:建文件夾 re模塊操作:單行模式+非貪婪匹配+分組取值 img_list = re.findall('<div class="thumb">.*?<img src="(.*?)".*?>.*?</div>', pag

原创 爬蟲——利用xpath插件爬取段子

# 項目需求:利用Xpath 獲取段子的內容和作者 https://ishuo.cn/joke import requests from lxml import etree # 指定url url='https://ishuo.

原创 爬蟲——beautiful演練及語法

將html文檔轉換成beautiful對象,然後調用屬性和方法進行定位解析 主要語法: 創建Beatiful對象: 本地:BeautifulSoup(open('本地文件'), 'lxml') 網絡:Beatiful('網絡請求到

原创 爬蟲——selenium

讓谷歌瀏覽器自動啓動並百度自動搜索關鍵詞 思路:下載瀏覽器驅動,創建瀏覽器對象,讓瀏覽器get請求打開一個頁面,定位到搜索框,輸入值,定位到按鈕,執行點擊操作。 環境搭建 安裝selenum:pip install selenium

原创 爬蟲-使用代理ip,使用session

1、使用代理ip和普通requests.get請求抓取頁面流程一樣,只是多了個參數proxies. http://www.goubanjia.com/ 找代理IP,注意http,https,選與目標網址一樣的協議。 proxies字

原创 爬蟲——練習-爬取一定範圍內的頁面數據

爬取前三頁的數據 第一次寫的代碼: # 綜合項目實戰:爬取搜狗,知乎某一詞條對應的某一範圍頁碼的數據 # 分析下爬取第一頁的url和第二頁的url,get請求參數中只有page在變,把url固定,變量封裝 import reque

原创 爬蟲——requests基本請求,get和post

get請求 response=requests.get(url=url,params=params,headers=headers) 不帶參數: response 對象其他重要屬性 import requests url='

原创 配置(補充中)

1、anaconda下載 安裝 配置 環境變量(安裝時點擊add path 選項不用在配置) 清華鏡像: https://mirrors.tuna.tsinghua.edu.cn/anaconda/archive/?C=N&O=D 對

原创 爬蟲--基於urllib的簡單的爬蟲反爬蟲

anaconda下自帶 jupyter notebook ,安裝及環境變量設置參考: https://blog.csdn.net/Light__1024/article/details/88655333 簡介: 爬蟲,模擬瀏覽器瀏覽網

原创 中間件

django聲明請求週期 瀏覽器發送請求 wsgiref收到請求信息解析封裝成request (django封裝了7箇中間件,settings裏有middleware源碼,一箇中間件就是一個類,執行中間件,)執行每個中間件

原创 用戶認證組件auth

django有自帶的用戶認證組件:自動用session記錄登陸驗證狀態,將用戶名和密碼錶存在了dajngo自帶的auth_user裏。 用戶表:dajngo自帶的auth_user (不在models裏創建表,直接做數據庫遷移