关于python获取网页表格数据(read_html()方法)

我们很常见的各种官方网站都有这样一种情况:网站中很多表格,我们想要官方的表格进行整理汇总、或者是筛选又或者是处理分析。但是我们如何将网页表格数据使用python保存为Excel文件?

思路整理:

一般情况下我们能发现网页的表格数据主要是在<table>标签中实现的网页表格数据,这里我们使用Pandas的read_html()方法就可以读取标签中的内容,首先进行查看元素。
在这里插入图片描述
既然有对应的标签,我们使用Pandas的read_html()的方法来看一看能不能获取表格数据,代码奉上如下:

df = df.append(pd.read_html(url), ignore_index=True)

保存数据:

df.to_csv('Salary.csv', header=['RK', 'NAME', 'TEAM', 'SALARY'], index=False)

完整代码:

import pandas as pd

df = pd.DataFrame()
url_list = ['https://www.espn.com/nba/salaries/_/seasontype/4']
for i in range(2, 13):
    # %s 表示把URL变量转换为字符串
    url = 'https://www.espn.com/nba/salaries/_/page/%s/seasontype/4' % i
    url_list.append(url)
    # 遍历网页中的table读取网页表格数据
for url in url_list:
    df = df.append(pd.read_html(url), ignore_index=True)
    # 列表解析:遍历 dataframe 第3列并且用$开头
df = df[[x.startswith('$') for x in df[3]]]
df.to_csv('Salary.csv', header=['RK', 'NAME', 'TEAM', 'SALARY'], index=False)

完成结果:在这里插入图片描述

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章