python爬取網頁

原創

2020-02-23 16:36

1. 使用requests庫

import requests 
url="http://www.starbaby.cn/zhinan/609987" 
req =requests.get(url) 
req.encoding='utf-8' #顯式地指定網頁編碼，一般情況可以不用 
print(req.text)

2. 使用BeautifulSoup

from bs4 import BeautifulSoup
from bs4 import UnicodeDammit
import requests

def run():
    r = requests.get('http://zy.upln.cn/gongshi2014/index.html')
    soup = r.text.encode(r.encoding) #這裏獲取的text先按照指定的字符集解析下，這樣gbk、utf8都可以了
    soup = BeautifulSoup(soup, 'html.parser')
    soup = soup.find('tbody')
    for x in soup.find_all('tr'):
        for y in x.find_all('td'):
            s = y.a.text
            print(s)


if __name__=="__main__":
    run()

發表評論

所有評論

還沒有人評論，想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.

相關文章

Linux | 命令學習

文章目錄一、系統監控 1、free命令 2、ulimit命令 3、top命令 4、df命令 5、ps命令二、文件操作 1、tail命令 2、ll -ah 三、網絡通信 1、netstat 2、重啓網絡 3、SELinux 4、防火牆

2020-06-25 14:50:14

python下讀sougou中文語料文件

下載的sougou中文語料文件是xml格式的,有1.5G，需要在python下進行正文的提取及中文分詞工作。 1. 首先，進行正文的提取，有幾個需要注意的細節。 a. 檢測文件的中文編碼在python下安裝chardet包，使用ch

2020-06-15 04:11:36

HashTable 散列表

2020-06-01 14:09:43

ajc : the method builder() is undefined

巴比伦神话

2020-05-10 15:26:06

適配器的用法

2020-02-24 13:30:35

URL中文編碼與文本中文編碼的關係

2020-02-23 16:52:47

Python 代碼性能優化技巧

2020-02-23 16:37:05

Python環境下工具安裝小結

2020-02-23 16:36:54

Java Applet 基礎

2020-02-20 16:53:05

chromium的base源碼閱讀之scoped_refptr

簡介我們之前對C++標準庫的智能指針有了一定了解，今天我們來聊一聊Chromium中base的智能指針-scoped_refptr，該智能指針同樣是採用引用計數的方式來控制指針的創建和析構。接下來我們看下源碼來解讀下，源碼在ba

2020-07-04 06:29:59

自己實現簡單的動態分配器

自己實現簡單的動態分配器前言動態內存分配分配器的要求碎片實現問題空閒塊的組織結構放置塊合併空閒塊合併時機合併方式合併場景代碼實現寫在後邊其他的組織結構顯式空閒鏈表分離空閒鏈表完前言本文簡單論述下動態分配的原理，並自己實現一個最

2020-07-04 06:29:49

分佈式CAS理論，BASE理論

CAS簡介 CAP理論作爲分佈式系統的基礎理論,它描述的是一個分佈式系統在以下三個特性中：一致性（Consistency）可用性（Availability）分區容錯性（Partition tolerance）最多滿足其中的兩個特性

2020-06-27 08:55:05

fstab文件詳解，mount掛載參數

/etc/fstab文件詳解 file-system dir type options dump pass 選項解釋 file system 掛載的分區或存儲設備 dir 掛載點

2020-06-27 01:24:38

Linux | 命令學習

文章目錄一、系統監控 1、free命令 2、ulimit命令 3、top命令 4、df命令 5、ps命令二、文件操作 1、tail命令 2、ll -ah 三、網絡通信 1、netstat 2、重啓網絡 3、SELinux 4、防火牆

2020-06-25 14:50:14

簡單的性能測試

top 查看線程，以及內存等情況查看各個函數運行情況 top -Hp 進程號 perf top -t 第一個進程號

荷叶下的鱼

2020-06-22 17:45:06

24小時熱門文章

python gdal 安裝使用（Windows， python 3.6.8）

最新文章

最新評論文章