基於python的爬蟲

原創

2020-06-27 14:44

本次初學，參考的資料見：http://edu.51cto.com/index.php?do=lession&id=12393

功能主要是抓取韓寒的博客內容，以及保存網址到hanhan的文件夾中,運行環境實在linux下的。

網站見：http://blog.sina.com.cn/s/articlelist_1191258123_0_1.html

具體代碼如何：

<span style="font-size:18px;">#!/usr/bin/env python
#coding utf-8
import urllib
import time
url=['']*60
con=urllib.urlopen('http://blog.sina.com.cn/s/articlelist_1191258123_0_1.html').read()
title = con.find(r'<a title=')
href = con.find(r'href=',title)
html = con.find(r'.html',href)

i=0
while title !=-1 and href!=-1 and html !=-1 and i<60:
    url[i]=con[href+6:html+5]
    print(url[i])
    title = con.find(r'<a title=',html)
    href = con.find(r'href=',title)
    html = con.find(r'.html',href)
    i=i+1
else:
    print('find end!')


j=0
while j<50:
    content = urllib.urlopen(url[j]).read()
    open(r'hanhan/'+url[j][-26:], 'w+').write(content)
    print('downloading',url[j])
    j=j+1;
    time.sleep(15)
else:
        print('write article end!')
</span>

運行結果如下：

發表評論

所有評論

還沒有人評論，想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.

相關文章

【AI應用開發全流程】使用AscendCL開發板完成模型推理

本文分享自華爲雲社區《【昇騰開發全流程】AscendCL開發板模型推理》，作者：沉迷sk。前言學會如何安裝配置華爲雲ModelArts、開發板Atlas 200I DK A2。並打通一個Ascend910訓練到Ascend310推理

2024-06-05 22:57:15

修復 MySQL 8.4 的 "mysql_native_password is not loaded" 插件未加載錯誤

修復 MySQL 8.4 的 "mysql_native_password is not loaded" 插件未加載錯誤將 mysql_native_password 用戶更新到 caching_sha2_password 在具有足夠權限

2024-06-04 14:30:04

在Linux操作系統的安裝過程中，如何選擇合適的發行版

【關鍵詞】{{linux安裝}} 【提問】{{question}} 在Linux操作系統的安裝過程中，如何選擇合適的發行版，並確保安裝過程順利進行？此外，對於不同硬件配置的用戶，有哪些特定的安裝注意事項和優化策略？【文章】{{Linux操

2024-05-17 01:49:06

利用pyinstaller打包Python程序爲一個可執行文件

有時，Python發佈的程序需要被打包爲一個文件夾、甚至一個文件發佈。目前（2020）最佳的策略是使用pyinstaller。 pyinstaller不僅支持打包整個運行環境到一個可執行文件，而且還支持加密。但唯一的問題是，必須依賴

2024-05-14 02:04:34

安裝Auto-GPT

安裝 Python 3.8 或更高版本 https://phoenixnap.com/kb/how-to-install-python-3-ubuntu # 查看是否已經安裝了python python --version #更新包 sud

2024-05-12 22:43:51

Linux下製作Nginx綠色免安裝包

前言 linux下安裝nginx比較繁瑣，遇到內網部署環境更是麻煩，所以研究了下nginx綠色免安裝版的部署包製作，開箱即用，特此記錄分享，一下操作在centos8環境下安裝，如果需要其他內核系統的安裝（Debian/Ubuntu等），請在

2024-04-29 21:38:23

iTOP-3588S開發板瑞芯微RK3588S處理器主頻2.4GHz算力6T

核心板參數：尺寸： 55mm*45mm 連接器高度： 1.5mm CPU： RK3588S 主頻：四核 Cortex-A55, Quad-core ARM Cortex-A76,Neon and FPU, 2.4GHZ 內存：

2024-04-22 22:54:04

更換容器內的源

執行步驟： 1. 備份 mv -f /etc/apt/sources.list /etc/apt/sources.list.bak 2. 執行替換爲阿里源 cat > /etc/apt/sources.list<< EOF deb

2024-04-16 09:47:14

Ascend C 自定義PRelu算子

本文分享自華爲雲社區《Ascend C 自定義PRelu算子》，作者： jackwangcumt。 1 PRelu算子概述 PReLU是 Parametric Rectified Linear Unit的縮寫，首次由何凱明團隊提出，和Le

2024-04-08 10:33:15

從0帶你設計與實現基於STM32的智慧農業管理系統

本文分享自華爲雲社區《基於STM32的智慧農業管理系統設計與實現》，作者： DS小龍哥。一、前言 1.1 項目介紹【1】項目功能隨着全球農業現代化進程的加快，以及物聯網、人工智能等先進技術的發展與應用，智慧農業已經成爲現代農業發

2024-03-15 11:27:08

【運維】 aws 記錄

aws ec默認用戶名在aws中每個發佈版的默認用戶名不一樣，記錄一下。每個 Linux 實例都使用默認的 Linux 系統用戶帳戶啓動。默認用戶名由您在啓動實例時指定的 AMI 確定。對於 Amazon Linux 2 或 Amaz

2024-03-05 02:07:37

iTOP-3588開發板定製 Ubuntu 和 Debian 系統不使用 docker 構建系統

Ubuntu 和 Debian 文件系統的源碼在“ iTOP-3588 開發板 \01_ 【 iTOP-RK3588 開發板】基礎資料 \05_iTOP-RK3588 開發板 Linux 源碼 \02_Debian 和

2024-02-29 11:34:42

使用RK3588開發板使用scp指令互傳-windows與開發板互傳

MobaXterm 軟件網盤下載路徑：“iTOP-3588 開發板\02_【iTOP-RK3588 開發板】開發資料\04_iTOP-3588 開發板所需 PC 軟件（工具）\02-MobaXterm”。打開

2024-02-21 11:37:51

Apache DolphinScheduler 3.1.9 版本發佈：提升系統的穩定性和性能

🚀我們很高興宣佈，Apache DolphinScheduler 的最新版本 3.1.9 已正式發佈！此版本在 3.1.8 的基礎上進行了關鍵的 bug 修復和文檔更新，共計修復了 14 個 bug 和改進了 3 個文檔。主要更新亮點

2023-12-28 21:27:33

ExaGear 中附帶的 CentOS 運行環境

環境操作系統：openEuler 開放歐拉 23.09 適用架構：ARM64（鯤鵬 920、飛騰 FT-2000/4、D2000）簡介在 ARM64 平臺的優麒麟中，ExaGear 安裝完成後，會提供一個 AMD64 平臺的

2023-10-30 01:32:27

24小時熱門文章

最新文章

最新評論文章