python 入門爬蟲（一）

原創

2018-08-24 02:16

獲取文件內容

import requests
respone = requests.request('get','http://www.5173.com/')
#　響應碼
status_code = respone.status_code
# 文件編碼
encoding = respone.encoding
# 文件內容
text = respone.text
# 文件二進制內容
content = respone.content
print(text)

執行結果：

提取網頁內容（xpath方式）

import lxml.html

root=lxml.html.fromstring(text)
title = root.xpath('//title/text()')
print(title[0])

執行結果：

提取網頁內容有很多方式，bs4,re xpath…

發表評論

所有評論

還沒有人評論，想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.

相關文章

學習爬蟲基礎-網頁基礎2

客戶端HTTP請求 URL只是標識資源的位置，而HTTP是用來提交和獲取資源。客戶端發送一個HTTP請求到服務器的請求消息，包括以下格式：請求行、請求頭部、空行、請求數據四個部分組成，下圖給出了請求報文的一般格式。完整的

疯狂打码中

2020-07-08 07:56:24

學習爬蟲基礎6-HTTP響應狀態碼參考：

HTTP響應狀態碼參考： 1xx:信息 100 Continue 服務器僅接收到部分請求，但是一旦服務器並沒有拒絕該請求，客戶端應該繼續發送其餘的請求。 101 Switching Protocols 服務器轉換協議：服務器

疯狂打码中

2020-07-08 07:56:24

學習爬蟲基礎5-一個簡單的小案例

爬去百度貼吧中的html文檔下來會使用到urllib中的 urllib.urlencode() 方法來編碼發送請求時候的請求參數 URL編碼轉換：urllib的urlencode() urllib 模塊僅可以接受URL，不能

疯狂打码中

2020-07-08 07:56:24

學習爬蟲基礎3-urllib2庫的基本使用

urllib2庫的基本使用 urllib2 是python2 中的產物在python3 中 urllib2和urllib合併成了 urllib了在 python3 中，urllib2 被改爲urllib.request 代碼

疯狂打码中

2020-07-08 07:56:24

python 常用模塊的使用

Python自動化開發 - 常用模塊(一) 本節內容 1、模塊介紹 2、time&datetime模塊 3、random模塊 4、os模塊 5、sys模塊 6、json&pickle模塊 7、logging模塊一、模塊介紹模塊

疯狂打码中

2020-07-08 07:56:24

python 使用requests模塊進行視頻文件的下載

公司項目需要下載一批視頻文件，格式是mp4和mkv的，就藉助request模塊進行了下載，前提是源服務器返回文件的大小，以及可以接受請求頭headers中帶有Range參數以下是下載邏輯： resp = requests.h

weixin_43903378

2020-07-07 13:33:31

Python：幾種websocket的鏈接方式

轉載：https://blog.csdn.net/Darkman_EX/article/details/82592118 第一種, 使用create_connection鏈接，需要pip install websocket-client

2020-07-07 07:37:15

列表的地址, 大小和內容

透明的红萝卜221

2020-07-07 06:38:55

collections.Counter 的比較

Counter的most_common()方法返回的是列表, 如果某個元素的個數相同, 那麼就可能順序不同, 所以是False

透明的红萝卜221

2020-07-07 06:38:55

python 字典到底是有序還是無序?

透明的红萝卜221

2020-07-07 06:38:55

anaconda 的notebook無法shutdown

找到notebook的相關文件將其中的改成四個parent(), 改之前是三個parent()

透明的红萝卜221

2020-07-07 06:38:55

numpy 的reshape

import numpy as np a = np.random.randn(2, 3) print(a) b = a.reshape(3, 2) print(b) # a本身形狀不變 print(a) # 但此時, a, b

透明的红萝卜221

2020-07-07 06:38:55

類的各種方法和屬性

透明的红萝卜221

2020-07-07 06:38:55

進制和ASCII 各種轉換

透明的红萝卜221

2020-07-07 06:38:55

結巴分詞及詞性

import jieba import jieba.posseg as pseg words = pseg.cut("我愛毛主席北京天安門.!") for word, flag in words: print('%s: %s'

透明的红萝卜221

2020-07-07 06:38:55

24小時熱門文章

最新文章

最新評論文章