詳解如何用爬蟲程序採集新聞信息數據(以中國日報爲例) 原

半個世紀以來,隨着計算機技術全面融入社會生活,信息爆炸已經積累到了一個開始引發變革的程度。它不僅使世界充斥着比以往更多的信息,而且其增長速度也在加快,創造出了“大數據(Big Data)”這個概念。如今,這個概念幾乎應用到了所有人類智力與發展的領域中。 

Big Data是近來的一個技術熱點,歷史上,數據庫、數據倉庫、數據集市等信息管理領域的技術,很大程度上也是爲了解決大規模數據的問題。被譽爲數據倉庫之父的Bill Inmon早在20世紀90年代就經常提及Big Data。 

21世紀是數據信息大發展的時代,移動互聯、社交網絡、電子商務等極大拓展了互聯網的邊界和應用範圍,各種數據正在迅速膨脹並變大。

近年來互聯網、雲計算、移動和物聯網的迅猛發展。無所不在的移動設備、RFID、無線傳感器每分每秒都在產生數據,數以億計用戶的互聯網服務時時刻刻在產生巨量的交互。互聯網(社交、搜索、電商)、移動互聯網(微博)、物聯網(傳感器,智慧地球)、車聯網、GPS、醫學影像、安全監控、金融(銀行、股市、保險)、電信(通話、短信)都在瘋狂產生着數據:1)全球每秒鐘發送 2.9 百萬封電子郵件; 2)每天會有 2.88 萬個小時的視頻上傳到Youtube; 3)推特上每天發佈 5 千萬條消息; 4)每天亞馬遜上將產生 6.3 百萬筆訂單; 4)每個月網民在Facebook 上要花費7 千億分鐘; 5)Google 上每天需要處理24PB 的數據。

我們在一個大數據的時代漩渦中,每天都有是以億計的數據產生,如何獲取這些數據,如何使用這些數據,如何用好這些數據,都是一個難題。之前遇到的一位做語言學研究的小姐姐,研究課題需要建立自己的語言數據庫,每次都要在新聞網站上去搜索關鍵字的文章,然後複製黏貼下來,非常的辛苦和費事費時,我聽說之後非常吃驚,問她這種機械卻又累人的工作,爲什麼不讓軟件解決,而要自己一個個手動複製黏貼。她的回答是自己是學文科的,又不會寫代碼,又搞不懂編程,所以她只能自己辛苦一點了。聽完她的回答之後,我很心痛,所以我立馬給他推薦了一款軟件,幫助她從複雜的複製黏貼工作中解脫出來。

這款軟件對小白用戶十分友好,智能模式只要輸入網址就能幫忙採集了,是谷歌大牛回國寫的一款軟件,而且還是免費採集和導出的,現在把這個軟件分享出來,希望對大家有所幫助。我會以新聞網站中國日報爲例,爲大家演示如何通過這款爬蟲軟件自動採集數據。

首先,需要下載安裝軟件,大家可以到官網上下載最新版本的軟件,然後註冊新用戶登錄,遊客用戶也可以採集數據,但是可能會丟失,建議還是註冊新用戶。

首先,複製需要採集的網址,打開軟件輸入網址,新建智能採集任務。

在智能模式下,我們輸入網址後軟件即可自動識別出頁面上的數據並生成採集結果,每一類數據對應一個採集字段,可以右擊字段進行相關設置,包括修改字段名稱、增減字段、處理數據等。

由於在列表頁上只展示了部分的新聞信息,如果需要採集具體的新聞內容,我們需要右擊鏈接使用“深入採集”功能,跳轉到詳情頁進行採集。

接着點擊“保存並啓動”按鈕,可在彈出的頁面中進行一些高級設置,包括定時啓動、自動入庫和下載圖片,我們如果沒有用到這些功能,可以直接點擊“啓動”運行任務。

數據採集完畢後我們可以導出數據,這款軟件比較好的一點是不僅採集免費,而是可以導出多種格式的文檔,對導出也沒有什麼限制。

爲方便查看我們導出一個Excel2007的表格,我們可以看到數據質量還是挺高的,大家可以直接使用這些數據,也可以在這個基礎上對數據進行加工處理。

 

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章