網絡爬蟲實戰2——BeautifulSoup基礎操作

一、介紹   

 爬蟲的第一步,獲取整個網頁的HTML信息,我們已經完成(上一篇博文:http://blog.csdn.net/vinsuan1993/article/details/79367192)。接下來就是爬蟲的第二步,解析HTML信息,提取我們需要的內容。

    對於本小節的實戰,我們需要提取新聞的標題、URL地址和時間。提取的方法有很多,例如使用正則表達式、Xpath、Beautiful Soup等。對於初學者而言,最容易理解,並且使用簡單的方法就是使用BeautifulSoup提取感興趣內容。這是一個強大的第三方庫,都會有一個詳細的官方文檔,Beautiful Soup也是有中文的官方文檔。

URL:http://beautifulsoup.readthedocs.io/zh_CN/latest/

二、BeautifulSoup基礎操作

DOM Tree


因爲我們在jupyter notebook中操作,所以不需要再另行安裝BeautifulSoup;

如何提取上面標籤中的內容,代碼如下:



注:使用soup下的方法select()可以將特定標籤元素取出來,需要注意的是,取出來的數據是列表(list)格式。

三、新聞資訊實例

現在,我們使用chrome開發者工具,查看一下我們的目標頁面,取得新聞的標題、時間、url,操作步驟如下:


你會看到如下內容,如下:


實例代碼如下:


發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章