爬蟲url去重策略&字符串編碼

原創

2020-05-30 23:43

一. 爬蟲url去重策略

將訪問過的url保存到數據庫中；
將訪問過得url保存到set中，只需要o(1)的代價就可以查詢url
url 經過md5的編碼等方法哈希後保存到set中（scrapy採用此方法）
用bitmap方法，將訪問過的url通過hash函數映射到某一位
Bloomfilter方法對bitmap進行改進，多重hash函數降低衝突；

ps:從字面上理解，url去重即去除重複的url,在爬蟲中就是去除已經爬取過的url,避免重複爬取，既影響爬蟲效率，又產生冗餘數據。

二.字符串編碼

計算機只能處理數字，文本轉化爲數字才能處理。計算機中8個bit作爲一個字節，所以一共字節能表示最大數字爲255
Ascll（一個字節）美國人的標準編碼；
GB2312編碼，兩個字節表示一個漢字；
Unicode出現將所有語言統一到一套編碼裏；
亂碼問題解決，全是英文，uniconde編碼比Ascll需要多一倍存儲空間；
可變長的編碼“utf-8”；把英文變成一個字節，漢字3個字節。傳輸大量的英文，utf-8作用很明顯；
Utf-8和unicode的區別；
Unicode 是「字符集」 UTF-8 是「編碼規則」 p字符集：爲每一個「字符」分配一個唯一的 ID（學名爲碼位 / 碼點 / Code Point）編編碼規則：將「碼位」轉換爲字節序列的規則（編碼/解碼可以理解爲加密/解密的過程）

發表評論

所有評論

還沒有人評論，想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.

相關文章

python網絡爬蟲系列（二）——ProxyHandler處理器實現代理IP

ProxyHandler處理器（代理）：很多網站會檢測某一段時間某個IP的訪問次數（通過流量統計，系統日誌等），如果訪問次數多的不像正常人，它會禁止這個lP的訪問。所以我們可以設置一些代理服務器，每隔一段時間換一個代理，就算

小小白学计算机

2020-07-06 10:33:59

python網絡爬蟲系列（三）——cookie的原理、保存與加載

一、什麼是cookie？在網站中,http請求是無狀態的.也就是說即使第一次和服務器連接後並且登錄成功後,第二次請求服務器依然不能知道當前請求是哪個用戶。 cookie的出現就是爲了解決這個問題,第一次登錄後服務器返回一些數據(

小小白学计算机

2020-07-06 10:33:59

python網絡爬蟲系列（一）——urllib庫（urlopen、urlretrieve、urlencode、parse-qs、urlparse和urlsplit、request.Request類）

urllib庫 urllib庫是Python中一個最基本的網絡請求庫。可以模擬瀏覽器的行爲，向指定的服務器發送一個請求，並可以保存服務器返回的數據。一、urlopen函數：在Python3的urllib庫中，所有和網絡請求相關

小小白学计算机

2020-07-06 10:33:59

Python網絡爬蟲(二十三)——Redis

概述 redis 是一種支持分佈式的非關係型數據庫，數據是保存在內存中，同時 redis 可以定時把內存數據同步到磁盤，即可以將數據持久化，並且 Redis 比 memcached 支持更多的數據結構。 redis 和 memcached

2020-07-04 17:05:22

requests.exceptions.SSLError: HTTPSConnectionPool(host='item.jd.com', port=443)

requests的get方法 import requests r = requests.get("https://item.jd.com/100004788063.html") 報錯： Traceback (most recen

2020-06-29 03:13:24

【python實現網絡爬蟲（17）】使用正則表達式爬取百度以任意關鍵詞搜索返回結果的數據

正則表達式爬取百度搜索結果1. 爬蟲架構2. 創建分頁url2.1 網頁url規律查找2.2 創建接口輸出url測試3 正則表達式匹配3.1 直接匹配源代碼3.2 配合網頁解析進行結果匹配4. 小結5. 全部代碼5.1 re +

2020-06-26 23:59:09

【python實現網絡爬蟲（12）】JSON解析之爬取騰訊新聞

目標網址：騰訊新聞，頁面如下 1. 尋找json接口在目標頁面點擊鼠標右鍵進行’檢查’，然後選擇'Network'，再點擊’網頁刷新’按鈕，接着在右下區域內彈出的內容上選擇具有pull_url標識的文件，最後點擊'Previe

2020-06-26 23:08:28

【python實現網絡爬蟲（16）】JSON網易動態新聞爬取（ajax請求爬取信息過程詳解，附全部源代碼）

1. Ajax 介紹 Ajax 即“Asynchronous Javascript And XML”（異步 JavaScript 和 XML），是指一種創建交互式、快速動態網頁應用的網頁開發技術，無需重新加載整個網頁的情況下，能夠

2020-06-26 23:08:28

python爬取數據--存儲mysql數據庫

一.安裝mysql：在官網：https://dev.mysql.com/downloads/mysql/ 二.安裝驅動程序：在python集成開發環境Anaconda下，需用命令：pip3 install pymysql或con

2020-06-22 08:38:51

爬取數據存儲於Excel表

一.利用pandas庫直接存儲爲Excel文件；主要技術點： 1.首先建立列表，存儲每一次爬取的內容，爲後面的字典存儲做準備； 2.利用字典格式儲存數據； 3. 利用pandas中DataFram

2020-06-22 08:38:50

python網絡爬蟲--必會基礎

閱讀目錄一、爬蟲是什麼二、爬蟲的基本流程三、http協議和https協議的區別四、 request與Response之間的關係五、 request請求詳細總結以及常用請求方式和參數六、Response響應詳細總結以及參數

2020-06-22 08:38:50

python網絡爬蟲——使用selenium抓取東方財富網上市公司公告

每日公告數量@TOC 一、數據獲取與預處理本文從東方財富網上市公司公告頁面獲取滬深A股1991-2019年公告數據，按照數據獲取的先後順序，將數據分爲以下兩個部分一是上市公司公告信息，包括：序號（index）、股票代碼（code

2020-06-21 02:04:45

python網絡爬蟲筆記-python3基礎回顧

一、IO編程 IO在計算機中指的是Input/Output，凡是用到數據交換的地方都會涉及IO編程，例如磁盤、網絡數據傳輸。 1.文件讀寫 1.打開文件 python內置了讀寫文件的函數，文件讀寫之前需要打開文件，確定文件

2020-06-20 02:49:55

Python urllib的urlretrieve()函數解析

urllib模塊提供的urlretrieve()函數。urlretrieve()方法直接將遠程數據下載到本地。 urlretrieve(url, filename=None, reporthook=None, data=None) 參數

2020-06-19 11:30:37

python網絡數據挖掘--JS隱式等待和顯式等待

第一部分：隱式等待和顯式等待隱式等待和顯式等待的不同之處在於，隱式等待是等DOM中某個狀態發生改變後再繼續運行代碼（沒有明確的等待時間，但是有最大等待期限，只要在時限內就可以），而顯式等待明確設置了等待時間，如上篇文章中等待三

2020-06-16 09:30:32

24小時熱門文章

最新文章

最新評論文章