用python爬取小說信息（簡易版）

原創

without_scruple

2020-02-25 23:57

用Beautiful拿到小說作者和文章（沒有加入cookie元素，比較簡單的完整代碼）

# -*- coding=utf-8 -*-

import urllib2
from bs4 import BeautifulSoup

# 得到網頁源代碼
def download(url,user_agent = 'wswp',proxy = None,num_retries = 2):
    print 'downloading:',url
    headers = {'User-agent':user_agent}     # 設置代理服務
    request = urllib2.Request(url,headers = headers)        # 發出請求
    opener = urllib2.build_opener()     # 創建一個opener
    
    # 異常處理
    try:
        html = opener.open(request).read()      # 拿到網頁源代碼
    except urllib2.URLError as e:
        print 'download error:',e.reason
        html = None
        if num_retries > 0:
            if hasattr(e,'code') and 500 <= e.code < 600:
                html = download(url,user_agent,proxy,num_retries-1)     # 若是對方服務器問題，則重新爬取，最多再爬兩次
    return html
    
 # 得到小說信息
def crawler_info(seed_url):
    html = download(seed_url)
    soup = BeautifulSoup(html)      # 將拿到的網頁源代碼轉換爲BeautifulSoup的格式
    title = soup.title      # 文章名稱
    content = soup.find(id='content')       # 文章內容
    print '題目：',title.text      # 以文本格式輸出
    print '文章：',content.text
# 測試
url = 'http://www.biquge5200.com/52_52542/20380548.html'
crawler_info(url)

發表評論

所有評論

還沒有人評論，想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.

相關文章

盤點一個Pandas數據分組的問題

大家好，我是Python進階者。一、前言前幾天在Python白銀交流羣【上海新年人】問了一個Pandas數據分組的問題，問題如下： list1 = '電子稅票號碼徵收稅務機關社保經辦機構單位編號費種徵收品目徵收子目費款所屬

2024-06-07 10:02:02

有沒有python在flask框架下開發的實際案例？

大家好，我是Python進階者。一、前言前幾天在Python鑽石交流羣【進擊的python】問了一個Python web開發的問題，問題如下：各位大佬，有沒有python在flask框架下開發的實際案例？？？求分享二、實現過程 git

2024-06-06 10:01:59

Python網絡爬蟲要清理cookies 才能再爬，有啥解決方法嘛？

大家好，我是Python進階者。一、前言前幾天在Python鑽石交流羣【大寫一個Y】問了一個Python基網絡爬蟲的問題，問題如下：大佬們請教個問題我做了個在某眼查抓地址數據的爬蟲，程序中做了隨機2-5秒的循環延時，現在大概爬8

2024-06-05 10:02:06

一文搞懂DevOps、DataOps、MLOps、AIOps：所有“Ops”的比較

引言近年來，"Ops"一詞在 IT 運維領域的使用迅速增加。IT 運維正在向自動化過程轉變，以改善客戶交付。傳統的應用程序開發採用 DevOps 實施持續集成（CI）和持續部署（CD）。但對於數據密集型的機器學習和人工智能（AI）應用，精

2024-06-07 14:08:38

sublime text4 定製記錄

經過測試sublime text4用於python開發時，使用pyright做爲lsp服務比較好，能夠提示出numpy的各種函數。但有時提示也太多了，類似於idea，會把所有能查到的變量都提示出來，我更需要的是類似 vs.net 那樣的精確

2024-06-07 01:14:07

sublime text定製

經過測試sublime text4用於python開發時，使用pyright做爲lsp服務比較好，能夠提示出numpy的各種函數。但有時提示也太多了，類似於idea，會把所有能查到的變量都提示出來，我更需要的是類似 vs.net 那樣的精確

2024-06-07 01:14:04

無需搭建環境，零門檻帶你體驗Open-Sora文生視頻應用

本文分享自華爲雲社區《Open-Sora 文生視頻原來在AI Gallery上也能體驗了》，作者：碼上開花_Lancer。體驗鏈接：Open-Sora 文生視頻案例體驗不久前，OpenAI Sora 憑藉其驚人的視頻生成效果迅速走紅，在

2024-06-06 10:56:52

[oeasy]python020在遊戲中體驗數值自由_勇闖地下城_終端文字遊戲

繼續運行 ?* 回憶上次內容上次使用shell環境中的命令命令作用 c

2024-06-05 12:31:14

自動化Reddit圖片收集：Python爬蟲技巧

引言 Reddit，作爲一個全球性的社交平臺，擁有海量的用戶生成內容，其中包括大量的圖片資源。對於數據科學家、市場研究人員或任何需要大量圖片資源的人來說，自動化地從Reddit收集圖片是一個極具價值的技能。本文將詳細介紹如何使用Pyth

2024-06-05 00:06:19

什麼是LLM大模型訓練，詳解Transformer結構模型

本文分享自華爲雲社區《LLM 大模型學習必知必會系列(四)：LLM訓練理論篇以及Transformer結構模型詳解》，作者：汀丶。 1.模型/訓練/推理知識介紹深度學習領域所謂的“模型”，是一個複雜的數學公式構成的計算步驟。爲了便於理解

2024-06-04 11:09:34

618網購節，電商能擋住惡意網絡爬蟲的攻擊嗎？

2023年，杭州中院審結了兩起涉及“搬店軟件”的不正當競爭案件。本案的原告是國內某大型知名電子商務平臺的運營主體，而被告則是開發了一款名爲“某搬家快速商品上貨批量發佈”的複製軟件，被控非法獲取平臺商品信息並在其他服務市場銷售。根據原告的訴

2024-06-07 00:14:57

提高數據抓取效率：Swift中Crawler的併發管理

前言數據的獲取和處理能力成爲衡量一個應用性能的重要標準。網絡爬蟲作爲數據抓取的重要工具，其效率直接影響到數據獲取的質量和速度。Swift語言以其出色的性能和簡潔的語法，成爲了許多開發者編寫網絡爬蟲的首選語言。本文將詳細介紹如何在Swi

2024-06-07 00:06:36

營銷系統黑名單優化：位圖的應用解析

背景營銷系統中，客戶投訴是業務發展的一大阻礙，一般會過濾掉黑名單高風險賬號，並配合頻控策略，來減少客訴，進而增加營銷效率，減少營銷成本，提升營銷質量。營銷系統一般是通過大數據分析建模，在CDP（客戶數據平臺，以客戶爲核心，圍繞數據融

京東雲開發者

2024-06-06 11:54:12

Symfony Panther在網絡數據採集中的應用

引言在當今數字化時代，網絡數據採集已成爲獲取信息的重要手段之一。Symfony Panther，作爲Symfony生態系統中的一個強大工具，爲開發者提供了一種簡單、高效的方式來模擬瀏覽器行爲，實現網絡數據的採集和自動化操作。本文將通過

2024-06-04 02:45:28

Symfony Panther在網絡數據採集中的應用

引言在當今數字化時代，網絡數據採集已成爲獲取信息的重要手段之一。Symfony Panther，作爲Symfony生態系統中的一個強大工具，爲開發者提供了一種簡單、高效的方式來模擬瀏覽器行爲，實現網絡數據的採集和自動化操作。本文將通過

2024-06-04 02:45:12

24小時熱門文章

最新文章

最新評論文章