如何用Power BI批量獲取網頁中的鏈接?

對於網頁中可見的規範化數據,提取很簡單,但對於網頁中可以再次點擊的鏈接,怎麼提取呢?

其實同樣很簡單,本文以豆瓣讀書中的TOP250 爲例:

https://book.douban.com/top250?icn=index-book250-all

在這個網頁中,不僅顯示書名、評分、作者等信息列表,還可以通過點擊封面或者書名,進入該書的詳情頁,下面看看如何提取這個鏈接。

在PowerBI Desktop中,選擇用web獲取數據,會看到這個導航器,

在表視圖中你看不到可以提取的數據,沒有關係,你可以點擊左下角的“使用示例添加表”,然後你就能看到這個網頁了,

在這裏,只要手動輸入前兩條信息,PowerBI就會判斷你要提取的字段,並自動把該網頁中剩餘的同類數據添加進來,比如輸入前兩個書名,

同樣的方式,你也可以提取評分、作者、出版社等信息。

網址在這個網頁是不可見的,你沒法直接輸入前兩個網址,這種情況下就沒有示例,難道要一個一個手工複製粘貼嗎?

當然不用,雖然這裏看不見,但可以把鏈接打開,不就知道網址是什麼了嗎?

依次打開把前兩名的鏈接,並分別將網址複製粘貼到示例的前兩行中,

這樣就得到了鏈接,是不是很簡單。

上面的步驟只是提取一頁25條信息,你還可以根據前面文章中介紹的方法,利用Power Query自定義函數批量提取Top250條的圖書信息。

提取後簡單處理,就可以在PowerBI Desktop中使用了,記得將鏈接的數據類型設置爲“Web URL",纔可以點擊哦。


我的新書《PowerBI商業數據分析》上市了

-精彩推薦-

PowerBI數據分析和可視化實戰案例

Power BI商業數據分析模型:RFM客戶價值分析

如何用PowerBI 打造高大上的財務報表分析報告?

採悟 from PowerBI星球

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章