problem

1:關於怎樣判別最後一個item的問題:

可以通過start_url  中的最後一條進行判斷,如果,start_url 中的url只是其實的,你可以先拿到最後一條的最後一頁的那一頁頁號,然後在spider中聲明一個類變量,先設置未False ,然後在條件觸發是設置成爲True,最後在pipeline中判斷。

 

2:關於構建異步數據處理的帶來的數據存儲滯後問題:

需要在spider 關閉的時候設置一個請求延遲,這樣是最理想的,首先可以達到抓一定時間,停止的目的,其次能夠簡化代碼,如果是再添加一個變量,代碼會變得複雜一點,但是也不是特別複雜;

3:如何在pipeline中實現異步發送請求。

之前想得是通過scrapy中自帶得請求方式(yield scrapyFormReqeusts),只不過一直沒有做;

4:scrapy-redis 內存丟數據問題;

在用scrapy-redis 存儲爬蟲得爬取url的時候,老是丟數據,不知道是配置問題,還是服務器配置太低問題(1g,2HZ)還跑着一個爬蟲) ,最大的懷疑是爬蟲跑起來之後導致系統資源緊張,然後redis內存就丟數據了;

5:還有一個redis問題是關於持久化的問題:

查看redis 的log日誌發現在數據持久化的時候一直出現,read-only file system

6:驗證碼識別問題:

簡單的驗證碼可以通過模仿然後通過opencv庫或者是pillow庫畫出相同的驗證碼,然後通過cnn進行訓練,

但是超級簡單的可以通過pillow進行一部分的降噪,然後直接用pytesseract 進行識別,識別的準確率還很高;

但是要注意一個參數是關於亮度的參數;

7:任何工具(編程語言,軟件,框架)都要和實際條件相結合,如果現有條件有限,可以用別的東西代替,沒必要一定要用。

8:關於js逆向的問題:

其實就是會寫js代碼,看懂js代碼,找到相應的js代碼所在的地方。前端的參數加密請求一定就在某個js文件中,(也可能不是js文件)

9:逆向問題:js逆向和安卓逆向,以及蘋果逆向,涉及到三個終端的問題;

10:

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章