關於python獲取網頁表格數據(read_html()方法)

我們很常見的各種官方網站都有這樣一種情況:網站中很多表格,我們想要官方的表格進行整理彙總、或者是篩選又或者是處理分析。但是我們如何將網頁表格數據使用python保存爲Excel文件?

思路整理:

一般情況下我們能發現網頁的表格數據主要是在<table>標籤中實現的網頁表格數據,這裏我們使用Pandas的read_html()方法就可以讀取標籤中的內容,首先進行查看元素。
在這裏插入圖片描述
既然有對應的標籤,我們使用Pandas的read_html()的方法來看一看能不能獲取表格數據,代碼奉上如下:

df = df.append(pd.read_html(url), ignore_index=True)

保存數據:

df.to_csv('Salary.csv', header=['RK', 'NAME', 'TEAM', 'SALARY'], index=False)

完整代碼:

import pandas as pd

df = pd.DataFrame()
url_list = ['https://www.espn.com/nba/salaries/_/seasontype/4']
for i in range(2, 13):
    # %s 表示把URL變量轉換爲字符串
    url = 'https://www.espn.com/nba/salaries/_/page/%s/seasontype/4' % i
    url_list.append(url)
    # 遍歷網頁中的table讀取網頁表格數據
for url in url_list:
    df = df.append(pd.read_html(url), ignore_index=True)
    # 列表解析:遍歷 dataframe 第3列並且用$開頭
df = df[[x.startswith('$') for x in df[3]]]
df.to_csv('Salary.csv', header=['RK', 'NAME', 'TEAM', 'SALARY'], index=False)

完成結果:在這裏插入圖片描述

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章