原创 scrapy 批量插入更新mysql, kafka模版

Pipeline中寫通用方法,模版在下方: def get_kafka_client(): client = KafkaClient(hosts=','.join(KAFKA_HOSTS), broker_version="

原创 mysql刪除多餘重複數據

需求爲刪除mysql數據庫中重複數據,保留第一條 初步代碼爲: DELETE FROM base_phone_lable WHERE phone IN ( SELECT phone

原创 數據採集或數據處理中去除多餘空格,換行符等等的方法

採集或處理數據時,需求當有連續空格時保留一個空格,換行符存爲一個空格 xpath中可以採用  normalize-space()  方法: root.xpath('normalize-space(string(//*))') 當需要在數

原创 python識別文字,實現看圖說話

現在寫文件很多網站都不讓複製了,所以每次都是截圖然後發到QQ上然後用手機QQ的文字識別再發回電腦。。感覺有點小麻煩了,所以想自己寫一個小軟件方便方便自己,就有了這篇了: 首先語言是python,要實現的功能主要爲文字識別,所以需要調用OC

原创 python mysql 批量插入

首先我們看看mysql的存入數據方法: 插入數據: INSERT INTO table_name (列1, 列2,...) VALUES (值1, 值2,....) 更新數據: UPDATE 表名稱 SET 列名稱 = 新值 WHER

原创 python3的坑之可迭代對象

當從python2轉到python3時,在對list進行處理後經常會遇到結果不正常,經過查找發現python2 和python3對list處理後返回對象會有一些差別: 在python2 中,map(), filter等對list進行處理的

原创 django中更新數據的幾種方法比較

django中如果需要更新數據,有多種方法: user = Test.objects.filter(name='張小腿')[0] user.phone = '18822221111' user.save()

原创 django update 失敗

今天遇到一個bug,在django中,無論使用什麼方法更新一條數據,均沒作用,也不報錯。 後來排查出,原來是django中不能同時調用一個model類,比如: def fun_a(): User.objects.filter(x

原创 ajax請求 return異常

ajax請求中,如果我們需要return返回值的話,直接return是行不通的: function f() { $.ajax({ url:"baidu.com" , type:"get",

原创 python 刪除list中某所有元素

突然記起來一年前剛入行時,領導面試我時提的問題,刪除list中所有等於某個值的元素 比如  刪除 [1,2,3,4,1,2,3,4,1,3,4] 中所有的2元素 刪除元素常用 remove, pop 方法, remove可以直接刪除某個值

原创 京東滑動驗證碼破解,非selenium

關於滑動驗證碼的破解,主要分爲幾個部分:       1、圖像獲取       2、缺口定位       3、軌跡模擬       4、加密傳輸 由於部分滑動驗證碼加密較爲複雜,故大部分均使用selenium繞過第四步進行實現。 近期有需

原创 極驗驗證碼,通用破解

首先,我們來理一下思路: 極驗是專業提供第三方服務的,既然是第三方服務,就表明 驗證滑動是否成功的服務端是在極驗的後臺。 那麼用戶的流程就應該是: 1、訪問目標網頁,獲得表明商戶的參數                          

原创 selenium "Can only set Cookies for the current domain"

使用selenium插入cookie時 driver.add_cookie(cookie) 出現 Can only set Cookies for the current domain 原因是當前域與cookie作用域不同, 只需要在插

原创 驗證碼識別之圖片處理(一些細節處理)

上一篇我們聊到了圖片驗證碼處理的基本流程,已經可以應付絕大多數圖片驗證碼了。 驗證碼識別之圖片處理(基礎流程)------ 鏈接戳這裏 我們來看一下成果: 可以看到應付我們的學習算法需求已經足夠。 今天我們來看看一些特殊圖片的處理方法