爬貼吧——（1）先爬一下貼吧的帖子列表

原創

2018-08-20 20:15

import requests
from lxml import etree

class TiebaSpider(object):
    def __init__(self, tieba_name): # 初始化需要用到的變量
        self.tieba_name = tieba_name
        self.url = "http://tieba.baidu.com/mo/q----,sz@320_240-1-3---/m?kw="+tieba_name+"&amp;lp=7202"
        self.headers = {"User-Agent": "Mozilla/5.0 (Linux; Android 6.0; Nexus 5 Build/MRA58N) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/63.0.3239.132 Mobile Safari/537.36"}

    def parse_url(self, url):   # 發送請求，響應首頁內容
        rp = requests.get(url, headers=self.headers)
        return rp.content.decode()

    def get_content_list(self, html_str):   # 清洗數據
        html = etree.HTML(html_str)
        div_list = html.xpath("//div[contains(@class,'i')]")
        href_list = []
        for div in div_list:
            item = {}
            item["title"] = div.xpath("./a/text()") if len(div.xpath("./a/text()"))>0 else None
            item["href"] = div.xpath("./a/@href") if len(div.xpath("./a/@href"))>0 else None
            href_list.append(item)
        return href_list

    def save_content(self, href_list):
        file_name = self.tieba_name + ".txt"
        with open(file_name, "a") as f:
            f.write(href_list)
            f.write("\n")


    def run(self):
        # 1，獲得開始url
        # 2，發送請求獲得內容
        html_str = self.parse_url(self.url)
        href_list = self.get_content_list(html_str)
        self.save_content(href_list)
        # 3，解析內容
        # 4，保存內容

if __name__ == '__main__':
    tieba_spider = TiebaSpider("做頭髮")
    tieba_spider.run()

更新中…

發表評論

所有評論

還沒有人評論，想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.

相關文章

Qt/C++音視頻開發76-獲取本地有哪些攝像頭名稱/ffmpeg內置函數方式

一、前言上一篇文章是寫的用Qt的內置函數方式獲取本地攝像頭名稱集合，但是有幾個缺點，比如要求Qt5，或者至少要求安裝了多媒體組件multimedia，如果沒有安裝呢，或者安裝的是個空的呢，比如很多嵌入式板子，就算有multimedia組件

2024-06-04 14:32:26

芯片產業管理和營銷指北（1）—— 產品線經理主要職能

注意：本文是依據俞志宏老師的《我在硅谷管芯片：芯片產品線經理生存指南》一書閱讀後歸納總結得到。可以試做此書的讀後感，對芯片產業感興趣的同僚強烈推薦此書產品線負責人（產品線經理）：負責從芯片市場需求開始，經歷芯片的產品定義、芯片的前

2024-06-04 14:31:56

省錢攻略：阿里雲99元服務器續費到2027年方法

阿里雲99元服務器新老用戶均可以買!!! 你沒看錯，老用戶可以買!2核2G3M固定帶寬，不限流量!! 並且續費不漲價，原價99元即可續費，一直可以續費到2027年，相當於396元買4年 99元服務器 (買4年396元) 新老用戶同享雲服務

2024-06-04 14:30:56

UniTask入門指南:簡化Unity中的異步編程

UniTask入門指南:簡化Unity中的異步編程介紹: UniTask是一個輕量級、高性能的異步編程庫,專門針對Unity開發進行了優化。與Unity標準的Task系統相比,UniTask提供了更加簡潔和高效的異步編程方式。在Unity

2024-06-04 14:24:46

js日期格式化代碼

js 日期格式化代碼分享一個前端實用的 js 日期格式化代碼，相當給力。 1 export function getFillDate(key) { 2 if(key < 10) { 3 return `0${key

2024-06-04 14:24:26

Visual Studio編程效率提升技巧集（提高.NET編程效率）

前言本文大姚將爲你介紹一些Visual Studio的使用技巧和建議，旨在幫助.NET開發者更加高效地利用Visual Studio進行編程工作。無論你是.NET初學者還是經驗豐富的.NET開發者，這些技巧都將有助於提升你的工作效率，讓你

2024-06-04 14:22:35

C#開源實用的工具類庫，集成超過1000多種擴展方法

前言今天大姚給大家分享一個C#開源（MIT License）、免費、實用且強大的工具類庫，集成超過1000多種擴展方法增強 .NET Framework 和 .NET Core的使用效率：Z.ExtensionMethods。直接項目引

2024-06-04 14:22:35

第二節：MySQL8.x壓縮包的形式在Centos Stream上安裝

一. 準備服務器：阿里雲Centos Stream 9 Mysql：mysql-8.4.0-linux-glibc2.28-x86_64.tar 下載地址：https://dev.mysql.com/downloa

2024-06-04 14:22:15

CSRedis用於Redis哨兵模式，NetCore

十年河東，十年河西，莫欺少年窮學無止境，精益求精上一節通過兩臺windowsServer服務器部署了Redis的哨兵模式，詳情參考：兩臺windowserver服務器配置Redis哨兵集羣----一主二從 redis通過主從複製來實現高

2024-06-04 14:22:05

svn和git提交時忽略不同平臺的換行符(unix-eol)

跨平臺的代碼文件，拉下來在windows上沒有修改，使用vs打開工程後就會有大量文件出現在修改列表中，對比diff，差異在最後一行分別是windowx的換行和unix的換行，也就是不同平臺的換行符不一樣，那麼如何讓svn忽略這種差異呢？ s

2024-06-04 14:21:15

Git操作指南：多人協作提交代碼的規範

操作指南以TortoiseGit以例，多人或多臺電腦之間同步協作少用git pull，而是要通過以下方法右鍵點擊 git sync，選擇 Fetch & Rebase 等待Fetch完之後，在彈出來的選項中選擇Rebase 在Reb

2024-06-04 14:21:15

kaggle賬號註冊方法

https://www.bilibili.com/video/BV1Sc411j7Fd/?spm_id_from=333.337.search-card.all.click&vd_source=d68ed178f151e80fea1e02e

張博的博客

2024-06-04 14:20:25

lombok的坑

java -jar lombok.jar config -g --verbose [BUG] Lombok generates only one @Getter and @Setter for a field name · Issue #

2024-06-04 14:17:25

Maven中scope=provided和optional=true的區別 maven scope 'provided' 和 ‘compile’的區別

先說效果，maven依賴聲明中加了<scope>provided</scope>，或者加了<optional>true</optional>，從效果上看是一樣的，都會中斷依賴傳遞，觀察下圖：依賴圖圖中，項目B分別依賴了

2024-06-04 14:17:24

記一次 .NET某質量檢測中心繫統崩潰分析

一：背景 1. 講故事這些天有點意思，遇到的幾個程序故障都是和Windows操作系統或者第三方組件有關係，真的有點無語，今天就帶給大家一例 IIS 相關的與大家分享，這是一家國企的.NET程序，出現了崩潰急需分析。二：WinDbg 分析

2024-06-04 14:16:14

24小時熱門文章

最新文章

最新評論文章