對於網頁中可見的規範化數據,提取很簡單,但對於網頁中可以再次點擊的鏈接,怎麼提取呢?
其實同樣很簡單,本文以豆瓣讀書中的TOP250 爲例:
https://book.douban.com/top250?icn=index-book250-all
在這個網頁中,不僅顯示書名、評分、作者等信息列表,還可以通過點擊封面或者書名,進入該書的詳情頁,下面看看如何提取這個鏈接。
在PowerBI Desktop中,選擇用web獲取數據,會看到這個導航器,
在表視圖中你看不到可以提取的數據,沒有關係,你可以點擊左下角的“使用示例添加表”,然後你就能看到這個網頁了,
在這裏,只要手動輸入前兩條信息,PowerBI就會判斷你要提取的字段,並自動把該網頁中剩餘的同類數據添加進來,比如輸入前兩個書名,
同樣的方式,你也可以提取評分、作者、出版社等信息。
網址在這個網頁是不可見的,你沒法直接輸入前兩個網址,這種情況下就沒有示例,難道要一個一個手工複製粘貼嗎?
當然不用,雖然這裏看不見,但可以把鏈接打開,不就知道網址是什麼了嗎?
依次打開把前兩名的鏈接,並分別將網址複製粘貼到示例的前兩行中,
這樣就得到了鏈接,是不是很簡單。
上面的步驟只是提取一頁25條信息,你還可以根據前面文章中介紹的方法,利用Power Query自定義函數批量提取Top250條的圖書信息。
提取後簡單處理,就可以在PowerBI Desktop中使用了,記得將鏈接的數據類型設置爲“Web URL",纔可以點擊哦。
-精彩推薦-
採悟 from PowerBI星球