原创 bilibili 根據up主下載其下的投稿

1 下載模塊: #!/usr/bin/env python import requests import json import time import re import hashlib import os from get_head

原创 jieba+pytagcloud 標籤雲

1.使用pytagcloud自帶的get_tag_counts函數,將目標文本進行分割,然後生成標籤列表,從而畫標籤雲 def mytagcloud(): text = '目標文本' counts = get_tag_co

原创 集成自己的番號+磁鏈庫

1.使用的數據庫,mongodb,格式就是簡單的{‘番號’:番號,‘磁鏈’:磁鏈} 2.目標網頁有兩個 a:http://www.233mr.com/nvyou/ b:http://www.xiliti.com/fht

原创 gevent+requests下載八零小說

找到一本小說,但是下載需要會員。不想衝會員,所以想爬下來。再次同時發現一個資源很多的網站,八零小說網。所以寫了一個爬蟲,把書爬下來。 首先,打開想下載的小說的章節列表界面: 然後獲取每章的鏈接: 八零小說網不對請求做限制,可以直接re

原创 you-get 關於bilibili部分的函數

作爲一個爬蟲愛好者,看到好東西就是想爬爬。 you-get 代碼閱讀 我吧原本的分工明確的代碼給小作坊化了 ~ def make_xml_url(self,response): # response是目標網頁的text內容 # 假設目標