模板1之爬取豆瓣電影排行榜

原創

杀鸡要用屠龙刀

2020-06-30 21:53

僞代碼，當模板

import requests
import bs4
import re

def open_url(url):
	headers = {
			'user-agent': '網頁F12去找'
			}
	res = request.get(url,headers=headers)
	return res

def find_movies(res):
	soup = bs4.BeautifulSoup(res.text,'html.parser')
	# 電影名
	movies = []
	targets = soup.find_all("div",class="hd")
	for each in targets:
		movies.append(each.a.span.text)
	# 評分
	ranks= []
	targets = soup.find_all("span",class="rating_num")
	for each in targets:
		#ranks.append('評分：%s' % each.text)
		ranks.append(each.text)
	# 資料
	messages = []
	targets = soup.find_all("div",class="bd")
	for each in targets:
		try:
		messages.append(each.p.text.split('\n')[1].strip() + each.p.text.split('\n')[2].strip())	
		except:
			continue
	result = []
	length = len(movies)
	for i in range(length):
		#result.append(movies[i] + rank[i] + messages[i] + '\n')
		result.append([movies[i],rank[i],messages[i]])
	
	return result
	
# 找出一共多少個頁面
def find_depth(res):
	soup = bs4.BeautifulSOup(res.text,'html.parser')
	depth = soup.find('span',class_='next').previous_sibling.previous_sibling.text
	
	return int(depth)

def save_to_excel(result):
	wb = openpyxl.Workbook()
	ws = wb.active
	ws.append(['電影名稱','評分','資料'])

	for each in result:
		ws.append(each)
	ws.save("1.xlsx)
	
def main():
	host = "一個網頁的url"
	res = open_url(host)
	depth = find_depth(res)
	
	result = []
	for i in range(depth):
		url = host + '/?start=' + str(25 * i)
		res = open_url(url)
		result.extend(find_movies(res))
	'''
	with open("1.txt","w",encoding="utf-8") as f:
		for each in result:
			f.write(each)
	'''
	save_to_excel(result)
main()

發表評論

所有評論

還沒有人評論，想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.

相關文章

模板2之爬取城市房價

import requests import bs4 import re import openpyxl def open_url(url): headers = { "user-agent": "F12可獲得" }

杀鸡要用屠龙刀

2020-06-30 21:53:11

正則表達式和JSON

正則表達式一、導入re模塊 pip install re 查看是否安裝：pip list import re 二、常用符號 “.” : 可代替所有除"\n"之外的任一字符。 “*”：表示它前面的一個子表達式0次到無限次

杀鸡要用屠龙刀

2020-06-30 21:53:11

模板4之統計淘寶商品銷量(正則表達式、JSON、遞歸）

import requests import re import openpyxl def open_url(keyword): payload = {'q':"關鍵字參數","sort":"關鍵字參數"} url = "網

杀鸡要用屠龙刀

2020-06-30 21:53:11

模板3之爬取網易雲音樂熱門評論(post)

import requests import json import openpyxl def get_hot_comments(res): comments_json = json.loads(res.text) # jso

杀鸡要用屠龙刀

2020-06-30 21:53:11

Python爬蟲之一：十幾行代碼下載王者榮耀所有皮膚

2020-02-21 00:54:03

爬蟲之詩文傳頌

# encoding: utf-8 # author: Batac import requests import re import json class ShiwenSpider: """詩文數據分析工具"""

远方不足近在咫尺

2020-07-02 00:37:34

模板2之爬取城市房價

import requests import bs4 import re import openpyxl def open_url(url): headers = { "user-agent": "F12可獲得" }

杀鸡要用屠龙刀

2020-06-30 21:53:11

正則表達式和JSON

正則表達式一、導入re模塊 pip install re 查看是否安裝：pip list import re 二、常用符號 “.” : 可代替所有除"\n"之外的任一字符。 “*”：表示它前面的一個子表達式0次到無限次

杀鸡要用屠龙刀

2020-06-30 21:53:11

模板4之統計淘寶商品銷量(正則表達式、JSON、遞歸）

import requests import re import openpyxl def open_url(keyword): payload = {'q':"關鍵字參數","sort":"關鍵字參數"} url = "網

杀鸡要用屠龙刀

2020-06-30 21:53:11

模板3之爬取網易雲音樂熱門評論(post)

import requests import json import openpyxl def get_hot_comments(res): comments_json = json.loads(res.text) # jso

杀鸡要用屠龙刀

2020-06-30 21:53:11

利用python3爬蟲下載圖片、pdf文檔

環境語言環境：python3.6 操作系統：Win10 第三方庫 requests 互聯網上的資源大都是以二進制形式存儲和運輸的，如圖片、pdf、音頻、視頻等，像.dat、.ts等這些不常用的文件也都是二進制。我們知道pytho

2020-06-07 18:10:12

python爬蟲下載網易雲收費歌曲

多年前，在一檔電視節目中，歌手韓紅斥責中國盜版太多，吐槽中國對版權的不重視、說實話，作爲一名付不起VIP的良好中國公民來說，聽到這話挺無奈的，心想要是中國也和美國那樣知識版權意識太好，那以後誰還聽歌了。然而。我們做過的發展超乎了

2020-06-07 18:10:12

爬蟲之正則表達式

远方不足近在咫尺

2020-03-10 16:48:19

Python爬蟲之一：十幾行代碼下載王者榮耀所有皮膚

2020-02-21 00:54:03

python網絡爬蟲實戰之下載筆趣看小說網小說

2018-12-07 15:14:51

24小時熱門文章

最新文章

最新評論文章