原创 Hadoop項目結構

本文來自於廈門大門-林子雨老師的講堂及添加個人學習中的理解,做個筆錄,如有BUG,請留言,不勝感激。     HDFS: 分步式文件系統,負責整個分佈式文件的存儲,怎麼用成百上千臺服務器進行數據的存儲   YARN: 負責調度內存、CP

原创 python 爬蟲-字體反爬2

爲了避免某某官方網站,本次記錄同樣也是 "glidedsky" 網站中的反爬蟲題目,只要明白,其它網站理論都差不一樣。 相關網站:http://glidedsky.com/level/web/crawler-font-puzzle-2 網

原创 python 爬蟲-圖片式反爬(雪碧圖)

爲了避免某某官方網站,本次記錄同樣也是 "glidedsky" 網站中的反爬蟲題目,只要明白,其它網站理論都差不一樣。 相關網站:http://glidedsky.com/level/web/crawler-sprite-image-1

原创 python 爬蟲-逆向JS(jsfuck反爬)

相應網站:http://glidedsky.com/level/crawler-javascript-obfuscation-1   題目要求:   再看看頁面的分析: 頁面中,沒有對應的數據,那麼就看看它們是從那裏來的。 再看看請

原创 python 爬蟲-逆向JS(sojson反爬)

  此文僅供參考學習交流,勿於商用,如有侵權,請留言告知   先來看看代碼(部分截圖): 複製出來,JS代碼部分: var arg1 = '960909806AA7476E288448504031715EAED08F66'; var

原创 python 爬蟲-滑塊驗證碼反爬(騰訊防水牆滑塊驗證碼)

相應頁面(http://glidedsky.com/level/web/crawler-captcha-1) 題目要求:   先看看頁面: 當我們一打開頁面,就是出現滑塊驗證碼頁面,我們所要的數字參數是沒有的。   再看看滑動之後的頁

原创 python 爬蟲-字體反爬

先推薦一個爬蟲工程自我檢驗網站。http://glidedsky.com/ 相應頁面(http://glidedsky.com/level/crawler-font-puzzle-1): 題目要求:   再看看頁面:   很明顯,當我

原创 python 爬蟲-CSS反爬

相應頁面(http://glidedsky.com/level/crawler-css-puzzle-1): 題目要求:   再看看頁面:   分析這個頁面的特點: 頁面顯示出來的數據不同 頁面中部分顯示的數據可能在標籤中不顯示 頁面

原创 python 談談可變對象與不可變對象

前言: 先說說本文中可能使用到的方法吧,也是常用的! id(): 返回變量的內存地址; type():返回變量的類型; ==:變量的比較(側重於值); is : 變量的比較(側重於內存);   本文可能涉及到內存。可以去看看我的以前寫的垃

原创 python is_integer()

有一次看到一段代碼: # -*- coding: utf-8 -*- # @Time : 2019/6/12 10:12 # @Author : hccfm # @File : t2.py # @Software: Py

原创 scrapy-redis 分佈式空跑問題,數據爬完之後程序沒有停下來。

問題描述: scrapy-redis在數據爬完之後,發現根本沒有停下來,程序沒有結束,一直在運行。那麼我們如何讓它跑完之後就關閉掉呢??? 如下圖:   問題分析: 在使用scrapy-redis時,redis中隊列 xxx:reque

原创 python 基於scrapy爬蟲可視化控制Spiderkeeper詳細使用

看了很多網絡教程。發現各有各的說法,這裏是個人總結,希望對你有用! 因爲是基於scrapy爬蟲框架。 安裝所需要的庫: pip install scrapyd pip install scrapyd-client 解釋: Scrapy

原创 虛擬機網絡配置(靜態ip)

https://www.cnblogs.com/liuzhipeng/p/7244110.html https://blog.csdn.net/axing2015/article/details/81516627

原创 scrapy-redis 數據讀取

# 連接 pool = redis.ConnectionPool(host='127.0.0.1') r = redis.Redis(connection_pool=pool) # List類型

原创 pycharm 多行一起編寫,一個很實用的方式

按住alt + 點擊   例子:   試試效果   >>>>>>>>>>>>>>