原创 Hadoop項目結構
本文來自於廈門大門-林子雨老師的講堂及添加個人學習中的理解,做個筆錄,如有BUG,請留言,不勝感激。 HDFS: 分步式文件系統,負責整個分佈式文件的存儲,怎麼用成百上千臺服務器進行數據的存儲 YARN: 負責調度內存、CP
原创 python 爬蟲-字體反爬2
爲了避免某某官方網站,本次記錄同樣也是 "glidedsky" 網站中的反爬蟲題目,只要明白,其它網站理論都差不一樣。 相關網站:http://glidedsky.com/level/web/crawler-font-puzzle-2 網
原创 python 爬蟲-圖片式反爬(雪碧圖)
爲了避免某某官方網站,本次記錄同樣也是 "glidedsky" 網站中的反爬蟲題目,只要明白,其它網站理論都差不一樣。 相關網站:http://glidedsky.com/level/web/crawler-sprite-image-1
原创 python 爬蟲-逆向JS(jsfuck反爬)
相應網站:http://glidedsky.com/level/crawler-javascript-obfuscation-1 題目要求: 再看看頁面的分析: 頁面中,沒有對應的數據,那麼就看看它們是從那裏來的。 再看看請
原创 python 爬蟲-逆向JS(sojson反爬)
此文僅供參考學習交流,勿於商用,如有侵權,請留言告知 先來看看代碼(部分截圖): 複製出來,JS代碼部分: var arg1 = '960909806AA7476E288448504031715EAED08F66'; var
原创 python 爬蟲-滑塊驗證碼反爬(騰訊防水牆滑塊驗證碼)
相應頁面(http://glidedsky.com/level/web/crawler-captcha-1) 題目要求: 先看看頁面: 當我們一打開頁面,就是出現滑塊驗證碼頁面,我們所要的數字參數是沒有的。 再看看滑動之後的頁
原创 python 爬蟲-字體反爬
先推薦一個爬蟲工程自我檢驗網站。http://glidedsky.com/ 相應頁面(http://glidedsky.com/level/crawler-font-puzzle-1): 題目要求: 再看看頁面: 很明顯,當我
原创 python 爬蟲-CSS反爬
相應頁面(http://glidedsky.com/level/crawler-css-puzzle-1): 題目要求: 再看看頁面: 分析這個頁面的特點: 頁面顯示出來的數據不同 頁面中部分顯示的數據可能在標籤中不顯示 頁面
原创 python 談談可變對象與不可變對象
前言: 先說說本文中可能使用到的方法吧,也是常用的! id(): 返回變量的內存地址; type():返回變量的類型; ==:變量的比較(側重於值); is : 變量的比較(側重於內存); 本文可能涉及到內存。可以去看看我的以前寫的垃
原创 python is_integer()
有一次看到一段代碼: # -*- coding: utf-8 -*- # @Time : 2019/6/12 10:12 # @Author : hccfm # @File : t2.py # @Software: Py
原创 scrapy-redis 分佈式空跑問題,數據爬完之後程序沒有停下來。
問題描述: scrapy-redis在數據爬完之後,發現根本沒有停下來,程序沒有結束,一直在運行。那麼我們如何讓它跑完之後就關閉掉呢??? 如下圖: 問題分析: 在使用scrapy-redis時,redis中隊列 xxx:reque
原创 python 基於scrapy爬蟲可視化控制Spiderkeeper詳細使用
看了很多網絡教程。發現各有各的說法,這裏是個人總結,希望對你有用! 因爲是基於scrapy爬蟲框架。 安裝所需要的庫: pip install scrapyd pip install scrapyd-client 解釋: Scrapy
原创 虛擬機網絡配置(靜態ip)
https://www.cnblogs.com/liuzhipeng/p/7244110.html https://blog.csdn.net/axing2015/article/details/81516627
原创 scrapy-redis 數據讀取
# 連接 pool = redis.ConnectionPool(host='127.0.0.1') r = redis.Redis(connection_pool=pool) # List類型
原创 pycharm 多行一起編寫,一個很實用的方式
按住alt + 點擊 例子: 試試效果 >>>>>>>>>>>>>>