problem

problem

原創

2019-03-30 06:53

1：關於怎樣判別最後一個item的問題：

可以通過start_url 中的最後一條進行判斷，如果，start_url 中的url只是其實的，你可以先拿到最後一條的最後一頁的那一頁頁號，然後在spider中聲明一個類變量，先設置未False ，然後在條件觸發是設置成爲True，最後在pipeline中判斷。

2：關於構建異步數據處理的帶來的數據存儲滯後問題:

需要在spider 關閉的時候設置一個請求延遲，這樣是最理想的，首先可以達到抓一定時間，停止的目的，其次能夠簡化代碼，如果是再添加一個變量，代碼會變得複雜一點，但是也不是特別複雜；

3：如何在pipeline中實現異步發送請求。

之前想得是通過scrapy中自帶得請求方式（yield scrapyFormReqeusts)，只不過一直沒有做；

4：scrapy-redis 內存丟數據問題；

在用scrapy-redis 存儲爬蟲得爬取url的時候，老是丟數據，不知道是配置問題，還是服務器配置太低問題（1g,2HZ)還跑着一個爬蟲) ,最大的懷疑是爬蟲跑起來之後導致系統資源緊張，然後redis內存就丟數據了；

5：還有一個redis問題是關於持久化的問題：

查看redis 的log日誌發現在數據持久化的時候一直出現，read-only file system

6:驗證碼識別問題：

簡單的驗證碼可以通過模仿然後通過opencv庫或者是pillow庫畫出相同的驗證碼，然後通過cnn進行訓練，

但是超級簡單的可以通過pillow進行一部分的降噪，然後直接用pytesseract 進行識別，識別的準確率還很高；

但是要注意一個參數是關於亮度的參數；

7：任何工具（編程語言，軟件，框架）都要和實際條件相結合，如果現有條件有限，可以用別的東西代替，沒必要一定要用。

8：關於js逆向的問題：

其實就是會寫js代碼，看懂js代碼，找到相應的js代碼所在的地方。前端的參數加密請求一定就在某個js文件中，（也可能不是js文件）

9:逆向問題：js逆向和安卓逆向，以及蘋果逆向，涉及到三個終端的問題；

10：

發表評論

所有評論

還沒有人評論，想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.