原创 城市售票網驗證碼圖片的獲取

import time from selenium import webdriver from PIL import Image from selenium.webdriver.support.wait import WebDriv

原创 京東商品信息爬取

京東商品爬取 1.網址: https:www.jd.com/ 2.目標: 輸入搜索的商品,爬取內容如下: 1.商品的名稱 2.商品的價格 3.評論數量 4.商家名稱 3.準備工作 1.搜索框屬性值: class=“text” 2.搜索

原创 selenium+phantomjs/Chrome強大網絡爬蟲組合

1.selenium 1.定義: Web自動化測試工具,用於Web自動化測試 2.特點 可運行在瀏覽器,根據指定命令操作瀏覽器,讓瀏覽器自動加載頁面 只是工具,必須與第三方瀏覽器結合使用 3.安裝selenium Anaconda

原创 使用多線程爬取數據

小米應用商店抓取(多線程) 1.網址: 百度搜索 小米應用商店 2.目標: 應用分類(聊天社交) 應用名稱 應用鏈接 3.抓取查詢參數,F12->QueryString URL: http://app.mi.com/categot

原创 利用正則爬取內涵8腦筋急轉彎內容

內涵段子腦筋急轉彎(mongodb) 1.網址: www.neihan8.com 2.步驟 1.找URL規律 第1頁: https://www.neihan8.com/njjzw/ 第2頁: https://www.neihan8.c

原创 百度貼吧圖片爬取

以百度貼吧校花吧爲例爬取每個帖子中的圖片 思路 1.獲取鐵保主頁URL,下一頁:找URL規律 2.獲取1頁中所有帖子的URL [帖子1鏈接,帖子2鏈接,…] 3.對每個帖子URL發請求,獲取所有圖片的URL [圖片1鏈接,圖片2鏈接,

原创 Django中forms模塊處理

1.forms模塊 1.通過 forms 模塊獲取表單數據 1.通過forms.Form的子類的構造器來接收post數據 form = RemarkForm(request.POST) 2.必須使form通過驗證,才能取值 form.

原创 糗事百科段子爬取

糗事百科(xpath高級用法) 1.目標 : 用戶暱稱 內容 好笑數量 評論數 2.步驟 1.URL https://www.qiushibaike.com/text/ 2.xpath表達式 1.匹配出所有段子的對象 //div[co

原创 網絡爬蟲

爬蟲xpath表達式 requests模塊方法 1.get() 1.查詢參數 : params -> 字典 2.代理 : proxies -> 字典 1.普通代理 {“協議”:“協議://IP地址:端口號”} 2.私密代理 {“協議

原创 項目先關介紹

什麼是項目? 軟件項目:一個具有完整的功能的代碼集合 接口(API):函數,類,模塊都可能是接口,提供的具有一定功能的代碼,通過獲取數據返回響應的結果 軟件項目開發流程 需求分析 --> 概要設計 --> 項目規劃 --> 詳細設計