今天遇到一個網頁,按往常的老辦法
soup = BeautifulSoup(content, 'lxml')
打印soup發現少了很多數據,剛開始還以爲反爬,後來經過驗證不是。、
那麼就是解析問題,我換成了
soup = BeautifulSoup(content, 'xml')
打印發現我想要的那塊成功出現了,但是對比整個網頁發現,其實還是有一些沒有顯示出來的,不管他,時間緊任務重,得過且過。
後來進入詳情頁,發現又顯示不全了。中間試了xpath等各種解析手段,還是顯示不出來。
最後還是繼續使用bs4。
soup = BeautifulSoup(content,'html.parser')
發現又成功解析出來了。
寫這篇博客並沒有深究爲什麼會這樣,能出來結果就趕緊接着往下做。緊張的工作中,大多數小夥伴應該都是這樣。
如果有遇到同樣只是解析顯示不全問題的小夥伴,試過了我的這幾種方法都還是不行,可以去搜bs4的文檔,裏面有更多的方法,祝你好運