原创 GuozhongCrawler系列教程 (4) StartContext詳解

  StartContext是注入時所有seed的上下文信息如果爬蟲在抓取過程當中需要共享一些變量。那麼可使用StartContext作爲容器。 構造器詳細資料 StartContext public StartContext()

原创 java中 volatile 的作用詳解

用在多線程,同步變量。 線程爲了提高效率,將某成員變量(如A)拷貝了一份(如B),線程中對A的訪問其實訪問的是B。只在某些動作時才進行A和B的同步。因此存在A和B不一致的情況。volatile就是用來避免這種情況的。volatile告訴j

原创 Android翻頁效果原理實現之曲線的實現

尊重原創轉載請註明:From AigeStudio(http://blog.csdn.net/aigestudio)Power by Aige 侵權必究! 炮兵鎮樓 上一節我們通過引入折線實現了頁面的摺疊翻轉效果,有了前面兩節的基礎呢

原创 新浪爬蟲微博個人地址公司等信息抽取正則表達式

項目地址:https://github.com/CreditTone/resources     新浪把用戶信息生成js。然後動態執行js生成html。所以大家看到爲什麼在html標籤裏面找不到信息。大家用下面的正則對靜態頁面抽取就可以

原创 GuozhongCrawler系列教程 (2) CrawTaskBuilder詳解

     GuozhongCrawler是分層架構。要快速學習CrawlTask獨立的配置多少要了解框架的源代碼。所以CrawTaskBuilder提供要更加扁平且易於理解的的方式創建CrawTask 方法詳細資料 useThre

原创 如何做最好的定向爬蟲架構

如何做最好的定向爬蟲架構 姓名:郭鍾 當前職位:某創業公司擔任爬蟲工程師   摘要 隨着互聯網信息的不斷髮展,信息數據的挖掘技術也不斷的發展。網絡爬蟲技術也隨之得到了巨大的發展。而對於內容型驅動的網站來說反扒是一件必不可少的事情。很多網站

原创 GuozhongCrawler系列教程 (3) PageProcessor詳解

       PageProcessor是所有PageRequest請求完成後處理的接口。 例如:startContext.createPageRequest("http://my.oschina.net/u/1377701/blog/4

原创 GuozhongCrawler實現一個完整爬蟲

原文轉載自:http://my.oschina.net/u/1377701/blog/403282 由於版本問題,此項目API已過時。 經過上一節開發環境搭建中的百度新聞的爬蟲例子,相信大家已經對GuozhongCrawler簡潔的AP

原创 CentOS下python安裝pip。乾貨

從pip官網 https://pypi.python.org/pypi/pip 下載pip的源代碼 #解壓 tar -zxvf pip-1.5.5.tar.gz  cd pip-1.5.5 #安裝 python setup.py inst

原创 GuozhongCrawler系列教程 (1) 三大PageDownloader

GuozhongCrawler  QQ羣 202568714   教程源碼下載地址:http://pan.baidu.com/s/1pJBmerL     GuozhongCrawler內置三大PageDownloader。分別是採用Ht

原创 CentOS升級Python到2.7

CentOS 6.3上安裝的python版本是2.6,不能滿足我運行軟件的要求,所以對python進行升級。 Python的最新版本已經是3.3,但是Python3的兼容性可能還有一定的問題,所以還是升級到2.7較爲保險。Python 2

原创 Android中可以做的兩件壞事---破解鎖屏密碼和獲取Wifi密碼

之前的文章一直在介紹OC,最近也是在找急忙慌的學習IOS,所以Android方面的知識分享就有點中斷了,但是我現在還是要靠Android吃飯,所以不能Android的工作不能停呀,今天咋們來看一下我在現實中遇到的兩個問題和解決方案 問

原创 GuozhongCrawler系列教程 (5) TransactionRequest詳解

   爲了實現和維護併發抓取的屬性信息提供線程安全的事務請求。TransactionRequest是一個抽象類自己不能設置Processor,卻需要實現 TransactionCallBack接口。TransactionRequest是個

原创 解決python安裝Twisted CompressionError: bz2 module is not available

CompressionError: bz2 module is not available 解決方法:1.wget https://pypi.python.org/packages/source/T/Twisted/Twisted-1

原创 easy_install 異常(zipimport.ZipImportError: can’t decompress data; zlib not

easy_install 錯誤(zipimport.ZipImportError: can’t decompress data; zlib not available) 下載setuptools-xx.egg文件,沒想到出現以下錯誤 zi