原创 GuozhongCrawler系列教程 (4) StartContext詳解
StartContext是注入時所有seed的上下文信息如果爬蟲在抓取過程當中需要共享一些變量。那麼可使用StartContext作爲容器。 構造器詳細資料 StartContext public StartContext()
原创 java中 volatile 的作用詳解
用在多線程,同步變量。 線程爲了提高效率,將某成員變量(如A)拷貝了一份(如B),線程中對A的訪問其實訪問的是B。只在某些動作時才進行A和B的同步。因此存在A和B不一致的情況。volatile就是用來避免這種情況的。volatile告訴j
原创 Android翻頁效果原理實現之曲線的實現
尊重原創轉載請註明:From AigeStudio(http://blog.csdn.net/aigestudio)Power by Aige 侵權必究! 炮兵鎮樓 上一節我們通過引入折線實現了頁面的摺疊翻轉效果,有了前面兩節的基礎呢
原创 新浪爬蟲微博個人地址公司等信息抽取正則表達式
項目地址:https://github.com/CreditTone/resources 新浪把用戶信息生成js。然後動態執行js生成html。所以大家看到爲什麼在html標籤裏面找不到信息。大家用下面的正則對靜態頁面抽取就可以
原创 GuozhongCrawler系列教程 (2) CrawTaskBuilder詳解
GuozhongCrawler是分層架構。要快速學習CrawlTask獨立的配置多少要了解框架的源代碼。所以CrawTaskBuilder提供要更加扁平且易於理解的的方式創建CrawTask 方法詳細資料 useThre
原创 如何做最好的定向爬蟲架構
如何做最好的定向爬蟲架構 姓名:郭鍾 當前職位:某創業公司擔任爬蟲工程師 摘要 隨着互聯網信息的不斷髮展,信息數據的挖掘技術也不斷的發展。網絡爬蟲技術也隨之得到了巨大的發展。而對於內容型驅動的網站來說反扒是一件必不可少的事情。很多網站
原创 GuozhongCrawler系列教程 (3) PageProcessor詳解
PageProcessor是所有PageRequest請求完成後處理的接口。 例如:startContext.createPageRequest("http://my.oschina.net/u/1377701/blog/4
原创 GuozhongCrawler實現一個完整爬蟲
原文轉載自:http://my.oschina.net/u/1377701/blog/403282 由於版本問題,此項目API已過時。 經過上一節開發環境搭建中的百度新聞的爬蟲例子,相信大家已經對GuozhongCrawler簡潔的AP
原创 CentOS下python安裝pip。乾貨
從pip官網 https://pypi.python.org/pypi/pip 下載pip的源代碼 #解壓 tar -zxvf pip-1.5.5.tar.gz cd pip-1.5.5 #安裝 python setup.py inst
原创 GuozhongCrawler系列教程 (1) 三大PageDownloader
GuozhongCrawler QQ羣 202568714 教程源碼下載地址:http://pan.baidu.com/s/1pJBmerL GuozhongCrawler內置三大PageDownloader。分別是採用Ht
原创 CentOS升級Python到2.7
CentOS 6.3上安裝的python版本是2.6,不能滿足我運行軟件的要求,所以對python進行升級。 Python的最新版本已經是3.3,但是Python3的兼容性可能還有一定的問題,所以還是升級到2.7較爲保險。Python 2
原创 Android中可以做的兩件壞事---破解鎖屏密碼和獲取Wifi密碼
之前的文章一直在介紹OC,最近也是在找急忙慌的學習IOS,所以Android方面的知識分享就有點中斷了,但是我現在還是要靠Android吃飯,所以不能Android的工作不能停呀,今天咋們來看一下我在現實中遇到的兩個問題和解決方案 問
原创 GuozhongCrawler系列教程 (5) TransactionRequest詳解
爲了實現和維護併發抓取的屬性信息提供線程安全的事務請求。TransactionRequest是一個抽象類自己不能設置Processor,卻需要實現 TransactionCallBack接口。TransactionRequest是個
原创 解決python安裝Twisted CompressionError: bz2 module is not available
CompressionError: bz2 module is not available 解決方法:1.wget https://pypi.python.org/packages/source/T/Twisted/Twisted-1
原创 easy_install 異常(zipimport.ZipImportError: can’t decompress data; zlib not
easy_install 錯誤(zipimport.ZipImportError: can’t decompress data; zlib not available) 下載setuptools-xx.egg文件,沒想到出現以下錯誤 zi