Python程序設計之爬蟲讀取(1)

1.網頁讀取基礎

Python3.x主要使用urlib庫來讀取網頁內容!

2.網頁內容讀取方法

①使用簡單的urlib.request來獲取網頁內容

import urllib
import urllib.request
def pa():
	#請求打開網頁
    fp=urllib.request.urlopen(r'http://www.python.org')
    #打印未解碼的前100個字符
    print(fp.read(100))
    #打印解碼的前一百個字符
    print(fp.read(100).decode())
    #關閉網頁
    fp.close()

②使用get方法來讀取指定域名的網頁內容

import urllib.parse
def pa1():
    params=urllib.parse.urlencode({'spam':1,'eggs':2,'bacon':0})
    url="http://www.musi-cal.com/cgi-bin/query?%s"%params
    url1="http://www.python.org?%s"%params
    with urllib.request.urlopen(url1) as f:
        print(f.read(100).decode('utf-8'))

③使用post方法提交參數並讀取指定頁面內容

def post():
    data=urllib.parse.urlencode({'spam':1,'eggs':2,'bacon':0})
    data=data.encode('ascii')
    with urllib.request.urlopen("http://www.python.org",data) as f:
        print(f.read(100).decode('utf-8'))
3.使用調用瀏覽器打開網頁
import webbrowser
def web():
    webbrowser.open('http://www.python.org')
4.域名解析
from urllib.parse import urlparse
def jiexi():
    o=urlparse('http://www.CWi.nl:80/%7Eguido/Python.html')
    #端口號
    print(o.port)
    #域名
    print(o.hostname)
發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章