Python程序設計之爬蟲讀取(1)

原創

QinHsiu

2020-07-03 12:45

1.網頁讀取基礎

Python3.x主要使用urlib庫來讀取網頁內容！

2.網頁內容讀取方法

①使用簡單的urlib.request來獲取網頁內容

import urllib
import urllib.request
def pa():
	#請求打開網頁
    fp=urllib.request.urlopen(r'http://www.python.org')
    #打印未解碼的前100個字符
    print(fp.read(100))
    #打印解碼的前一百個字符
    print(fp.read(100).decode())
    #關閉網頁
    fp.close()

②使用get方法來讀取指定域名的網頁內容

import urllib.parse
def pa1():
    params=urllib.parse.urlencode({'spam':1,'eggs':2,'bacon':0})
    url="http://www.musi-cal.com/cgi-bin/query?%s"%params
    url1="http://www.python.org?%s"%params
    with urllib.request.urlopen(url1) as f:
        print(f.read(100).decode('utf-8'))

③使用post方法提交參數並讀取指定頁面內容

def post():
    data=urllib.parse.urlencode({'spam':1,'eggs':2,'bacon':0})
    data=data.encode('ascii')
    with urllib.request.urlopen("http://www.python.org",data) as f:
        print(f.read(100).decode('utf-8'))

3.使用調用瀏覽器打開網頁

import webbrowser
def web():
    webbrowser.open('http://www.python.org')

4.域名解析

from urllib.parse import urlparse
def jiexi():
    o=urlparse('http://www.CWi.nl:80/%7Eguido/Python.html')
    #端口號
    print(o.port)
    #域名
    print(o.hostname)

發表評論

所有評論

還沒有人評論，想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.

Python程序設計之爬蟲讀取(1)

1.網頁讀取基礎

2.網頁內容讀取方法

3.使用調用瀏覽器打開網頁

4.域名解析

vue項目獲取富文本編輯器wangEditor內容導出爲word（html轉word格式並下載）

dotnet C# 創建 X11 應用時設置窗口背景顏色

Navicat安裝與激活教程

TDengine docker安裝方法

vue3組件通信與props

sapui5

Alpine Linux apk add DNS lookup error

部分JDK版本的發佈時間

工作中用到的腳本合集

合併代碼時Beyond Compare設置

Web網頁開發之問卷調查

Python程序設計之實現最短迴文字符串

Python程序設計之函數(2)

Python程序設計之文件操作(3)

Python程序設計之函數(1)

https://yachay.unat.edu.pe/blog/index.php?comment_area=format_blog&comment_component=blog&comment_co

linux以太網驅動總結