原创 neovis click重複執行的問題

// 用於存儲已點擊的節點 var clickedNodes = {}; viz.registerOnEvent('clickNode', (e) => {                 let nodeId = e.node.id;

原创 python調用java的jar包,在scrapy中處理加密邏輯

APP採集過程中有些請求是需要加密處理的,之前的方式是通過frida-inject的方式處理的,但是這需要連接手機, 好在本次處理的APP加密邏輯不是很複雜,加密邏輯都在java層,於是便將裏面的java層的加密邏輯單獨摘出來,想單獨的做成

原创 frida注入腳本持久化從frida-net到frida-inject

採集APP數據的時候發現需要對參數進行加密,爲了簡單就沒有做算法還原,就想嘗試用RPC的方式直接調用 最先開始用frida-net,這個方案有個問題是必須用USB連接手機,方案也能跑通 先下載frida-net  git clone  ht

原创 charles 手機端安裝證書無法下載問題

charles開啓後手機端也按照要求配置了代理,發現在手機端訪問的時候用chrome瀏覽器無法打開chls.pro.ssl地址, 電腦是win10 ,默認是開啓了防火牆    在手機訪問的時候總是打不開chls.pro.ssl,這時將防火牆

原创 Jadx 1.4.5 jadx.plugins.input.dex.DexException: Bad checksum

當用jadx加載多個dex文件的時候爆出 jadx.plugins.input.dex.DexException: Bad checksum,    app脫殼後有4個dex文件,解決此問題的方法是取消掉驗證 在jadx安裝目錄執行如下命名

原创 playwright-python執行js自定義方法

之前在Selenium裏執行js方法很簡單,現在切換到playwright上,發現原來執行js的方式不起作用了,在MSEDGE裏執行   Selenium裏執行JS driver.execute_script('''function st

原创 Scrapy 返回中文亂碼

對於scrpay亂碼的數據,剛開始在settings.py中配置了FEED_EXPORT_ENCODING = 'utf-8',發現還是不起作用, 於是想到了中間件,在請求返回的時候,對返回的內容進行轉碼處理 def process_re

原创 mongodb Failed to execute "listdatabases" command.

本地機器上最近又安裝了一個mongodb5的版本,之前有一個mongodb3.4的版本,5版本安裝後會默認以服務的方式啓動,而且是自啓動,所以導致再啓動3.4版本的時候始終無法連接上 而且還會爆出 Failed to execute "li

原创 ES minimum_should_match

最近在處理關鍵詞匹配文章的項目,比如給定“Ukip Vimpat applies” 查詢指定的title中含有至少2個詞的內容 # 查看分詞情況 POST _analyze { "analyzer": "standard", "t

原创 pymysql (1406, "Data too long for column 'html_src' at row 1")

昨天下午發現在入數據的時候總是報這個異常,日誌裏一大堆,很明顯是長度超了,但是查看了DDL,text類型     後來通過直接把數據存入mysql,發現沒什麼問題,那問題出在哪裏呢? 再次查看代碼,因爲存儲的是html源碼,後面通過htm

原创 mysql 導出表數據的命令 導出sql文件、excel文件命令

在做數據備份或導出數據的時候經常需要查詢mysql的導出命令,特此記錄下 1: 導出表數據到sql文件 備份數據  mysqldump -h 127.0.0.1 -uroot  -p  topickws  t_e_keywords_goog

原创 python爲火車頭寫插件

火車頭的官方現在已支持python寫插件,最開始按照官方文檔安裝了一個python3.8.8,調用插件總是報錯,後面諮詢客服說是版本太高,後面刪除後python重新安裝了一個python3.6,重新測試發現完美解決 貼一個寫好的插件 #

原创 python流式Pipeline串聯處理數據流程

最近需要清洗一批數據,涉及到好幾個流程,以前的方式是所有數據處理完一步後再進行下一步,這種方式也能很好的完成需求。 最近發現了一個python的PipeLine庫 fastcore   裏面有個pipeline模塊,正好滿足我的需求 fro

原创 正則按照單詞替換數據

python裏替換經常用replace函數,最近發現在清洗數據的時候用到replace有一些問題,後來發現是自己使用不當 比如 "a and a materials" 要把 'a' 'and' 清洗掉,用replace處理後變成"nd mt

原创 python difflib比較內容之間的差異

之前一直在尋找比較內容差異的庫,原來python標準庫裏自帶有difflib庫 這就比較有意思了,對於數據採集來說比較兩次請求參數的變化就很有用了,可以知道哪些是變化的,方便定位比較 import difflib def diff_hea