Python 通用爬虫思路

原創

Felix-微信(AXiaShuBai)

2020-05-31 03:17

文章目录

通用爬虫思路

1. 准备URL

准备start_url
- url地址规律不明显，总数不确定
- 通过代码查找下一页url
  - xpath定位
  - 不明显，寻找url地址，部分参数可能放在当前的响应中（比如当前页码数和总页码数会在当前响应中）
准备url_list
- 页码总数明确
- url地址规律明显

2. 发送请求，获取响应

添加随机的User-Agent，反反爬虫
添加随机代理的IP，建立ip代理池，反反爬虫
在对方判断我们是爬虫后，应该添加更多的headers字段，包括cookie
- cookie的处理可以使用session模块解决
- 准备一堆可以使用的cookie，组成cookie池
  - 如果不登录
    - 准备刚开始可以成功请求网址的cookie，即接收对方网址设置在response中的cookie
    - 下一次请求的时候，使用之前的cookie来请求
  - 如果要登录
    - 准备多个账号
    - 使用程序获取每个账号的cookie
    - 之后请求登录之后才能访问的网址随机使用已有的cookie

3. 提取数据

确定数据的位置
- 如果数据在当前的url地址响应中
  - 提取的是列表页的数据(第一层)
  - 提取详情页的数据(第二层)
    - 寻找详情页的url，发送请求，提取数据，返回数据存储
- 如果数据不在当前的url地址相应中
  - 在其他的响应中，寻找数据的位置
    - 1. 从network结果中从上往下找
    - 1. 使用Chrome中的过滤条件，选择出js.css.img之外的按钮选项
    - 1. 使用Chrome中的search all file，搜索关键数字和英文
数据提取
- xpath,从html提取数据，进行分组，之后每一组再进行提取
- re,提取特定的字符串
- json数据，转换为python字典，然后re查找提取

4. 保存

保存在本地，txt,json,csv
保存到数据库

發表評論

所有評論

還沒有人評論，想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.

相關文章

网络爬虫的秘密：如何高效地抓取JD.com视频链接

在這個數據驅動的時代，信息就是力量。而在這片信息的海洋中，爬蟲技術就像是一艘靈活的潛水艇，讓我們能夠深入海底，探尋那些隱藏的寶藏。今天，我將帶領大家一起踏上一場奇妙的探險之旅，我們將使用Python這把瑞士軍刀，搭配RoboBrowser

2024-05-18 00:07:59

网络爬虫安全：90后小伙，用软件非法搬运他人原创视频被判刑

央視《今日說法》欄目近日報道了一名程序員開發非法視頻搬運軟件獲利超700多萬，最終獲刑的案例。國內某知名短視頻平臺報警稱，有人在網絡上售賣一款視頻搬運軟件，使用軟件的人可以繞過平臺的審覈機制，一鍵“搬運”竊取他人作品非法轉載投稿。警方調查

2024-05-16 00:19:26

突破目标网站的反爬虫机制：Selenium策略分析

在當今信息爆炸的互聯網時代，獲取數據變得越來越重要，而網絡爬蟲成爲了一種常見的數據獲取工具。然而，隨着各大網站加強反爬蟲技術，爬蟲程序面臨着越來越多的挑戰。本文將以爬取百度搜索結果爲例，介紹如何使用Selenium結合一系列策略來突破目標

2024-05-16 00:10:51

Golang爬虫代理接入的技术与实践

引言隨着互聯網的迅猛發展，數據已經成爲現代社會的重要資源之一。而網絡爬蟲作爲一種數據採集工具，扮演着至關重要的角色。在Golang語言的生態系統中，開發者們可以藉助其強大的併發特性和豐富的標準庫，輕鬆構建高效穩健的網絡爬蟲。然而，面對

2024-04-26 23:26:42

利用HttpClient库下载蚂蜂窝图片

前言網絡爬蟲技術作爲互聯網數據獲取的重要工具，在各行各業都有着廣泛的應用。而在本文中，我們將利用Java中的HttpClient庫，通過編寫一個簡單而有效的網絡爬蟲程序，實現下載螞蜂窩網站的圖片的功能。通過這個例子，我們不僅可以學習如

2024-04-23 23:24:51

五一假期畅游指南：Python技术构建的热门景点分析系统解读

導言五一假期即將到來，作爲一名熱愛旅遊的技術達人，我總是希望能夠通過技術手段更好地規劃我的旅行路線。在這篇文章中，我將向大家介紹一款基於Python技術的熱門景點分析系統，幫助您在五一假期中游玩得更加盡興！ 1. 系統概述熱門景點

2024-04-16 23:25:46

使用urllib和BeautifulSoup解析网页中的视频链接

一、概述在當今數字化社會中，視頻內容已經成爲互聯網上最受歡迎的形式之一。而抖音作爲全球領先的短視頻平臺，每天都有數以億計的用戶在其中分享各種各樣的視頻內容。對於開發者來說，獲取抖音視頻鏈接並進行進一步的處理和分析是一項有趣且具有挑戰性

2024-04-15 23:27:55

利用Node.js实现拉勾数据爬取

引言拉勾網作爲中國領先的互聯網招聘平臺，彙集了豐富的職位信息，對於求職者和人力資源專業人士來說是一個寶貴的數據源。通過編寫網絡爬蟲程序，我們可以自動化地收集這些信息，爲求職決策和市場研究提供數據支持。Node.js以其非阻塞I/O和事

2024-04-01 23:25:54

项目配置之道：优化Scrapy参数提升爬虫效率

前言在當今信息時代，數據是無處不在且無比重要的資源。爲了獲取有效數據，網絡爬蟲成爲了一項至關重要的技術。Scrapy作爲Python中最強大的網絡爬蟲框架之一，提供了豐富的功能和靈活的操作，讓數據採集變得高效而簡單。本文將以爬取豆瓣網

2024-03-23 12:11:26

实用工具推荐：适用于 TypeScript 网络爬取的常用爬虫框架与库

隨着互聯網的迅猛發展，網絡爬蟲在信息收集、數據分析等領域扮演着重要角色。而在當前的技術環境下，使用TypeScript編寫網絡爬蟲程序成爲越來越流行的選擇。TypeScript作爲JavaScript的超集，通過類型檢查和麪向對象的特性

2024-03-21 00:24:03

Ruby网络爬虫教程：从入门到精通下载图片

概述網絡爬蟲技術在信息時代扮演着重要的角色，它可以自動化地獲取互聯網上的信息，爲用戶提供便利的數據服務。本文將帶領讀者從零開始，通過學習Ruby編程語言，逐步掌握網絡爬蟲的設計與實現，重點介紹如何利用網絡爬蟲技術下載圖片。無需任何編程

2024-03-05 23:59:45

去新加坡旅游，你必须要收藏了解的当地电商欺诈风险！

2月9日，除夕，中國與新加坡免籤正式生效。免籤政策簡化了持普通護照中國遊客入境新加坡的程序，使通關更爲便捷。根據協定，雙方持普通護照人員可免簽入境對方國家從事旅遊、探親、商務等私人事務，停留不超過30日，爲兩國

2024-02-23 00:38:14

程序学习路线图

程序基礎：算法導論，編譯原理操作系統; linux->windows 語言學習：java,c++,c# 網絡學習：HTML,CSS->PHP->JAVASCRIPT->AJAX->jquery 多媒體：ps，視頻，動畫；應用：網絡爬

2020-07-08 03:45:33

爬虫「Python」：解决网络爬虫遇到的字体包.ttf识别问题

在寫網絡爬蟲時，經常遇到頁面顯示正常的文字，在查看源碼時出現空白或者亂碼的情況，這就是運用字體包 .ttf 的反爬機制，這裏簡單瞭解一下 .ttf 文件。目錄一、問題二、TTF文件三、解決（一）過程分析（二）代碼一、問題

2020-07-08 02:30:58

爬虫「Python」：一次登录，解决爬取淘宝商品评价繁杂的问题——简述 Headers 的使用

在爬取淘寶商品評價時，可能會被以下幾個問題所困擾：（1）直接請求，服務器要求登錄帳號，怎麼登錄？（2）請求到的網頁 Html 怎麼沒有我要的評價信息？（3）等等下面介紹一下我使用的比較簡單的獲取評價的方法，可以說我在爬取過程中完全

2020-07-08 02:30:58

24小時熱門文章

最新文章

最新評論文章