嵩天老师网络爬虫与信息提取课程学习笔记（二）

原創

2020-06-23 04:24

此文根据嵩天老师的视频课程边听边敲下来的代码，模块化代码结构，将爬虫实例的三个步骤用三个函数实现，思路清晰，爬虫小白终于搞清楚指定URL爬取网页内容的全过程了，感谢MOOC平台，谢谢嵩老师的精细讲解。

#中国大学排名爬虫实例
#URL:http://www.zuihaodaxue.com/zuihaodaxuepaiming2019.html
#输入：大学排名URL链接
#输出：大学排名信息屏幕输出。
#技术路线：requests-bs4
#定向爬虫：仅对指定URL进行爬取
#程序的结构设计
#步骤1.从网络上获取大学排名网页内容   getHTMLText()
#步骤2.提取网页内容中信息到合适的数据 结构   fillUnivList()
#步骤3.利用数据结构展示并输出结果    printUnivList()

import requests
from bs4 import BeautifulSoup
import bs4
def getHTMLText(url):
	try:
		r = requests.get(url,timeout = 30)
		r.raise_for_status()
		r.encoding = r.apparent_encoding
		return r.text
	except:
		return ""

def fillUnivList(ulist,html):
	soup = BeautifulSoup(html,"html.parser")
	for tr in soup.find('tbody').children:
		if isinstance(tr, bs4.element.Tag):
			tds = tr('td')
			ulist.append([tds[0].string,tds[1].string,tds[3].string])
			

def printUnivList(ulist,num):
	print("{:^10}\t{:^6}\t{:^10}".format("排名","学校名称","总分"))
	for i in range(num):
		u = ulist[i]
		print("{:^10}\t{:^6}\t{:^10}".format(u[0],u[1],u[2]))
	print("Suc" + str(num))

def main():
	uinfo = []
	url = 'http://www.zuihaodaxue.com/zuihaodaxuepaiming2019.html'
	html = getHTMLText(url)
	fillUnivList(uinfo,html)
	printUnivList(uinfo,20)

main()

运行效果时如下：

發表評論

所有評論

還沒有人評論，想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.

相關文章

【Python爬虫7】验证码处理

文章目錄1.獲得驗證碼圖片2.光學字符識別驗證碼3.用API處理複雜驗證碼3.1 9kw打碼平臺3.1.1 提交驗證碼3.1.2 請求已提交驗證碼結果3.1.2與註冊功能集成驗證碼（CAPTCHA）全稱爲全自動區分計算機和人類的

2020-06-25 22:50:50

【Python爬虫9】Python网络爬虫实例实战

文章目錄2.1自動化登錄Facebook2.3自動化登錄Linkedin 爬取Google真實的搜索表單爬取依賴JavaScript的網站Facebook 爬取典型在線商店Gap 爬取擁有地圖接口的寶馬官網 #1.爬Googl

2020-06-25 22:50:39

【Python爬虫5】提取JS动态网页数据

文章目錄1.動態網頁示例2.對加載內容進行逆向工程2.1通過開發者工具的逆向工程2.2通過墨盒測試的逆向工程2.2.1搜索條件爲空時2.2.2用`*`號匹配時2.2.2用`.`號匹配時3.渲染動態網頁3.1使用WebKit渲染引擎

2020-06-25 22:50:39

scrapy+selenium之中国裁判文书网文书爬取

淺嘗python網絡爬蟲，略有心得。有不足之處，請多指正 url = https://wenshu.court.gov.cn/ 爬取內容：裁判文書爬取框架：scrapy框架 + selenium模擬瀏覽器訪問開始想暴力分析網頁結構

2020-07-03 17:38:16

安装Scrapy框架问题解决

此篇博文參考了文章https://blog.csdn.net/m0_37886429/article/details/79445387，非常感謝詳細解答，才得以解決我的問題。在windows系統中，如果我們直接使用pip安裝Sc

2020-06-23 04:24:16

嵩天老师网络爬虫与信息提取课程学习笔记（三）

此文根據嵩天老師的視頻課程邊聽邊敲下來的代碼，模塊化代碼結構，將爬蟲實例的三個步驟用三個函數實現，功能見下面解釋，感謝MOOC平臺，謝謝嵩老師的精細講解，以及助教的圖文解說突破淘寶訪問限制。 #淘寶商品信息定向爬蟲 #功能描述：獲

2020-06-23 04:24:16

嵩天老师网络爬虫之Scrapy框架解析笔记（四）

一、Scrapy爬蟲框架介紹功能強大的網絡爬蟲框架，重要的技術路線（一）、安裝 pip install scrapy （二）、scrapy不是一個簡單的函數功能庫，而是一個爬蟲框架。爬蟲框架：是實現爬蟲功能的一個軟件結構和功

2020-06-23 04:24:15

Python网络爬虫（八）：Scrapy中MongoDB数据库的简单使用（windows）

背景： Python版本：Anaconda3 數據庫：MongoDB 爬蟲框架：Scrapy IDE：PyCharm 前言：前面我們已經安裝和配置好Mongodb，接下來讓我們在編程中獲得對Mongodb更多的瞭解。 M

2020-06-17 11:00:47

爬虫基础----1

爬蟲前奏爬蟲的實際例子： 1.搜索引擎(百度，谷歌，360搜索等)； 2.伯樂在線； 3.惠惠購物助手； 4.數據分析與研究(數據冰山知乎專欄)； 5.搶票軟件等。什麼是網絡爬蟲： 1.通俗理解：爬蟲是一個模擬人類請求網站行爲的程序。

2020-06-09 00:46:41

初探Python网络爬虫：Requests库

2020-06-03 11:35:31

python基础爬虫的框架以及详细的运行流程

csdn_一介码夫

2020-05-30 13:29:49

《Python网络爬虫与信息提取》彩蛋

2020-05-21 09:39:40

《Python网络爬虫与信息提取》第四周网络爬虫之框架学习笔记（三）“股票数据Scrapy爬虫”实例

2020-05-16 13:10:43

《Python网络爬虫与信息提取》第四周网络爬虫之框架学习笔记（二）Scrapy爬虫基本使用

2020-05-14 16:29:51

Python网络爬虫(三)——chrome浏览器

2020-05-14 10:48:11

24小時熱門文章

Spring Cloud 部署时如何使用 Kubernetes 作为注册中心和配置中心

最新文章

最新評論文章