Python爬虫教程：爬取800多所大学学校排名、星级等

原創

原创

2021-01-30 10:20

前言

国内大学最新排名，北大反超，浙大仅第四，中科大跌至第八

时隔五年，“双一流”大学即将迎来首次大考，这也是继改变高校评断标准之后，第一次即将以官方对外发布，自然是引来了许多人的关注。最近，有许多不同机构发布的国内高校排名，但彼此之间的差异很大，网友之间的争议也很大。

项目目标

爬取高三网大学排名，并保存

目标网址

http://m.gaosan.com/gaokao/265440.html

基本环境配置

python 3.6 pycharm

爬虫代码

导入工具

新手学习，Python 教程/工具/方法/解疑＋V：itz992
import requests
import parsel
import csv

请求网页数据

url = 'http://m.gaosan.com/gaokao/265440.html' headers = { 'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/81.0.4044.138 Safari/537.36' }
response = requests.get(url=url, headers=headers)
response.encoding = response.apparent_encoding

爬取数据

selector = parsel.Selector(response.text)
trs = selector.css('#page tr') for tr in trs:
    dit = {}
    ranking = tr.css('td:nth-child(1)::text').get()
    dit['名次'] = ranking
    school = tr.css('td:nth-child(2)::text').get()
    dit['学校名称'] = school
    score = tr.css('td:nth-child(3)::text').get()
    dit['综合得分'] = score
    star = tr.css('td:nth-child(4)::text').get()
    dit['星级排名'] = star
    level = tr.css('td:nth-child(5)::text').get()
    dit['办学层次'] = level
    csv_writer.writerow(dit)

保存数据

f = open('排名.csv', mode='a', encoding='utf-8', newline='')
csv_writer = csv.DictWriter(f, fieldnames=['名次', '学校名称', '综合得分', '星级排名', '办学层次'])
f.close()

运行代码，效果如下图

發表評論

所有評論

還沒有人評論，想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.

Python爬虫教程：爬取800多所大学学校排名、星级等

前言

项目目标

目标网址

基本环境配置

爬虫代码

导入工具

请求网页数据

爬取数据

保存数据

运行代码，效果如下图

工作中用到的脚本合集

24-5-18 X

重磅推出：Milvus Lite 正式上線，幾秒內即可輕鬆搭建 GenAI 應用

vue3 scss style scope 加了無法重寫

VUE3 route 指定打開tab的名稱

如何去掉DedeCMS首頁index.html後綴

Testin雲測：鴻蒙原生質量保障都需要做哪些測試

https://yachay.unat.edu.pe/blog/index.php?comment_area=format_blog&comment_component=blog&comment_co

linux以太網驅動總結