以58同城爲例詳解如何用爬蟲採集二手房房源數據及中介聯繫方式 原

2008年9月4日,英國《自然》雜誌刊登了一個名爲“Big Data”的專輯,首次提出大數據概念,該專輯對如何研究PB級容量的大數據流,以及目前正在制訂的、用以最爲充分地利用海量數據的最新策略進行了探討。2011、2012年達沃斯世界經濟論壇將大數據作爲專題討論的主題之一,發佈了《大數據、大影響:國際發展新的可能性》等系列報告。 

2011年以來,中國成立了大數據委員會,研究大數據中的科學與工程問題,科技部《中國雲科技發展“十二五”專項規劃》和工信部《物聯網“十二五”發展規劃》等都把大數據技術作爲一項重點予以支持。業界普遍認爲,2013年是中國“大數據元年”。

根據IDC作出的估測,數據一直都在以每年50%的速度增長,也就是說每兩年就增長一倍(大數據摩爾定律),並且大量新數據源的出現則導致了非結構化、半結構化數據爆發式的增長,這意味着人類在最近兩年產生的數據量相當於之前產生的全部數據量,預計到2020年,全球將總共擁有35億GB的數據量,相較於2010年,數據量將增長近30倍。這不是簡單的數據增多的問題,而是全新的問題。 

大數據時代的到來,使我們要處理的數據量實在是太大、增長太快了,而業務需求和競爭壓力對數據處理的實時性、有效性又提出了更高要求,傳統的常規技術手段根本無法應付。

大數據的特徵具有數據量大、類型繁多、價值密度低及速度快時效高等特點,面對大數據的全新特徵,既有的技術架構和路線,已經無法高效地處理如此海量的數據,而對於相關組織來說,如果投入巨大采集的信息無法通過及時處理反饋有效信息,那將是得不償失的。可以說,大數據時代對人類的數據駕馭能力提出了新的挑戰,也爲人們獲得更爲深刻、全面的洞察能力提供了前所未有的空間與潛力。

而大數據蘊含着極大的價值,對我們的工作和生活具有重大的影響,如何快速有效的獲取到這些數據爲我們服務,是一個大難題。出現了問題,自然就有解決問題的人,爲了解決這一問題,后羿工程師團隊經過不斷的探索和研發,終於開發出一款基於人工智能技術的網絡爬蟲軟件,只需要輸入網址就能夠自動識別網頁數據,無需配置即可完成數據採集,是業內首家支持三種操作系統(包括Windows、Mac和Linux)的採集軟件。同時這是一款真正免費的數據採集軟件,對採集結果導出沒有任何限制,沒有編程基礎的小白用戶也可輕鬆實現數據採集要求。

我們以58同城杭州地區二手房源爲例,爲大家介紹如何運用軟件採集二手房房源信息及中介聯繫電話。

首先複製需要採集的網址,注意需要複製的是結果頁的網址,而不是搜索頁的網址,然後在軟件中輸入網址新建智能採集任務。

接着我們對智能識別出的字段進行處理,可以修改字段名稱,增加或者刪除字段等。

由於在在列表頁上只展示出了部分信息,如果需要房源的具體描述的話,我們需要右擊房源鏈接使用“深入採集”功能,跳轉到詳情頁進行採集。

深入採集字段設置完畢後,我們點擊“保存並啓動”按鈕,運行爬蟲工具。

數據抽取完畢後,我們可以導出數據,軟件提供多種的導出方式,我們可以自由選擇。

我們導出一個excel2007的表格,可以看到數據還是非常完整的,我們可以直接使用這個數據,也可以在這個基礎上對數據進行加工處理。

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章