如何用Power BI批量获取网页中的链接?

对于网页中可见的规范化数据,提取很简单,但对于网页中可以再次点击的链接,怎么提取呢?

其实同样很简单,本文以豆瓣读书中的TOP250 为例:

https://book.douban.com/top250?icn=index-book250-all

在这个网页中,不仅显示书名、评分、作者等信息列表,还可以通过点击封面或者书名,进入该书的详情页,下面看看如何提取这个链接。

在PowerBI Desktop中,选择用web获取数据,会看到这个导航器,

在表视图中你看不到可以提取的数据,没有关系,你可以点击左下角的“使用示例添加表”,然后你就能看到这个网页了,

在这里,只要手动输入前两条信息,PowerBI就会判断你要提取的字段,并自动把该网页中剩余的同类数据添加进来,比如输入前两个书名,

同样的方式,你也可以提取评分、作者、出版社等信息。

网址在这个网页是不可见的,你没法直接输入前两个网址,这种情况下就没有示例,难道要一个一个手工复制粘贴吗?

当然不用,虽然这里看不见,但可以把链接打开,不就知道网址是什么了吗?

依次打开把前两名的链接,并分别将网址复制粘贴到示例的前两行中,

这样就得到了链接,是不是很简单。

上面的步骤只是提取一页25条信息,你还可以根据前面文章中介绍的方法,利用Power Query自定义函数批量提取Top250条的图书信息。

提取后简单处理,就可以在PowerBI Desktop中使用了,记得将链接的数据类型设置为“Web URL",才可以点击哦。


我的新书《PowerBI商业数据分析》上市了

-精彩推荐-

PowerBI数据分析和可视化实战案例

Power BI商业数据分析模型:RFM客户价值分析

如何用PowerBI 打造高大上的财务报表分析报告?

采悟 from PowerBI星球

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章