關於python獲取網頁表格數據（read_html()方法）

原創

2020-06-22 06:00

我們很常見的各種官方網站都有這樣一種情況：網站中很多表格，我們想要官方的表格進行整理彙總、或者是篩選又或者是處理分析。但是我們如何將網頁表格數據使用python保存爲Excel文件？

思路整理：

一般情況下我們能發現網頁的表格數據主要是在<table>標籤中實現的網頁表格數據，這裏我們使用Pandas的read_html()方法就可以讀取標籤中的內容，首先進行查看元素。

既然有對應的標籤，我們使用Pandas的read_html()的方法來看一看能不能獲取表格數據，代碼奉上如下：

df = df.append(pd.read_html(url), ignore_index=True)

保存數據：

df.to_csv('Salary.csv', header=['RK', 'NAME', 'TEAM', 'SALARY'], index=False)

完整代碼：

import pandas as pd

df = pd.DataFrame()
url_list = ['https://www.espn.com/nba/salaries/_/seasontype/4']
for i in range(2, 13):
    # %s 表示把URL變量轉換爲字符串
    url = 'https://www.espn.com/nba/salaries/_/page/%s/seasontype/4' % i
    url_list.append(url)
    # 遍歷網頁中的table讀取網頁表格數據
for url in url_list:
    df = df.append(pd.read_html(url), ignore_index=True)
    # 列表解析：遍歷 dataframe 第3列並且用$開頭
df = df[[x.startswith('$') for x in df[3]]]
df.to_csv('Salary.csv', header=['RK', 'NAME', 'TEAM', 'SALARY'], index=False)

完成結果：

發表評論

所有評論

還沒有人評論，想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.

關於python獲取網頁表格數據（read_html()方法）

思路整理：

完整代碼：

完成結果：

釘釘打卡速度慢

Nginx R31 doc 官方文檔-01-nginx 如何安裝

Python 潮流週刊#51：用 Python 繪製美觀的圖表

Qt/C++音視頻開發74-合併標籤圖形/生成yolo運算結果圖形/文字和圖形合併成一個/水印濾鏡

挑戰程序設計競賽 2.2章習題 POJ - 3617 Best Cow Line 貪心

字節面試：MySQL什麼時候鎖表？如何防止鎖表？

.NET8連接SQL SERVER 2008 R2 報：證書鏈是由不受信任的頒發機構頒發的

golang開發環境搭建(win10)

python計算機視覺學習筆記——PIL庫的用法

Golang初學：獲取程序內存使用情況，std runtime

註冊表的使用-入門篇

向上轉型和動態綁定機制

使用JAVA實現的計算年齡以及判斷閏年平年的方法

回憶PHTOTSHOP技巧-複製技巧篇

Java中的public、private、protected以及默認修飾符的使用方法？對於重寫和重載之間的區別？靜態成員在不同環境下的使用方法？

https://yachay.unat.edu.pe/blog/index.php?comment_area=format_blog&comment_component=blog&comment_co

linux以太網驅動總結