原创 信用中國公司信用數據爬取

最近在爬取信用中國的時候,有個參數,encryStr,始終找不到,最後發現,只要拿到請求的網頁,再從網頁中取出來,encryStr,最後再拼到需要的地方就可以了 這是,搜索頁url,https://www.creditchina.gov.

原创 股東控股關係圖譜簡化版

最近在爬一些企業類的數據,在要取股東控股關係圖譜時,問題來了 標籤不一致,還要挨個把數據取出來。纔像個控股的樣子,像這樣的 直接來個簡化版的 把這一部分的源碼取出來,再用xpath,匹配取數據 終於有點控股關係的樣子了,其他的再慢慢

原创 PyQuery的基本使用

PyQuery庫也是一個非常強大又靈活的網頁解析庫,如果你有前端開發經驗的,都應該接觸過jQuery,那麼PyQuery就是你非常絕佳的選擇,PyQuery 是 Python 仿照 jQuery 的嚴格實現。語法與 jQuery 幾乎完全

原创 from PIL import Image,報錯,解決辦法

在安裝pillow的時候,安裝成功,但是在導包的時候出錯, 各種百度,各種方法都試過了,就是不行,依然報錯。後來追蹤PIL文件路徑,竟然是我創建的PIL.py,文件,哦哦哦,原來系統自動導的是我本地創建的文件,把PIL.py文件名一改,

原创 關於安裝tesserocr報錯,Failed building wheel for tesserocr

用pip3 install tesserocr pillow命令安裝,tesserocr,安裝過程會報錯,Failed building wheel for tesserocr 我成功解決的辦法,是先安裝必需的包,sudo apt-get

原创 user-agent各個參數詳解

最近在研究ua信息,現在總結一下ua信息各個參數代表的意思以及哪些參數可以修改,哪些可以刪除 現在,隨便拿出一個ua, Mozilla/5.0 (Linux; U; Android 7.0;m2 note Build/LMY47D) A

原创 求助,nodejs 在安裝threads_a_gogo時報錯

目前用webstrom開發工具,在運行時,報錯: 安裝命令:sudo npm install -g threads_a_gogo,運行出錯截圖: 下圖是,run運行出錯截圖 請教各位大神,這個問題如何解決,很急。。。

原创 數據結構和非數據結構詳解

在提到數據結構和非數據結構時,好多人都有這樣的意識,概念可能說不上來,接下來就來說說結構化數據和非結構化數據的概念以及不同:結構化數據、非結構化數據是對存儲形式的一種數據類型分析,有助於企業細分行業案例,幫助存儲合作伙伴更好地解決應用實施

原创 Mac環境下打開WebStorm中settings

在用webstorm 開發nodejs時,由於版本不一樣,window和Mac打開settings時會有很多不方便,現在就用一招就調出settings窗口: 打開到WebStorm界面後使用快捷鍵 Command+‘,’,直接調出sett

原创 酷炫命令行背景圖操作步驟

不知道大家有沒有見過酷炫的命令行背景圖片,很炫酷。例如:是不是很酷,還能裝個x,下面就帶大家來操作一下:首先打開,PyCharm,雙擊‘shift’,出現界面:,輸入:set background image之後輸入背景圖片路徑:設置過後

原创 用execjs破解百度翻譯sign

打開開發者工具:查翻譯發送的請求信息,得到其 FormData 看到有個sign,接下來就破解一下,signsign 這個參數,應該如何設置?我們在 js 代碼中,發現在某個 index_xxx 開頭的 js 代碼中發現一段可疑代碼。將這

原创 安裝pyv8 過程出現的問題 src/Exception.h:6:10: fatal error: v8.h: 沒有那個文件或目錄

src/Exception.h:6:10: fatal error: v8.h: 沒有那個文件或目錄 error: command 'x86_64-linux-gnu-gcc' failed with exit status 1今天在安裝

原创 pymongo.errors.DuplicateKeyError: E11000 duplicate key error collection: anjuke.ershoufang index

這個bug忙了我一下午加一個晚上,終於把它ko掉了先附上一段爬取安居客二手房信息的代碼import reimport timeimport pymongoimport requestsfrom bson import ObjectIdfr

原创 分佈式存儲的概念及特性

分佈式存儲系統顧名思義就是將大量的普通服務器,通過網絡互聯,對外作爲一個整體提供存儲服務。具有可擴展性、可用性、可靠性、 高性能、易維護、低成本等特性。百度百科的定義是這樣的,本人覺得這個好理解一些:分佈式存儲系統,是將數據分散存儲在多臺

原创 數據庫優化方案之查詢語句

數據庫優化方案,主要的還是要優化查詢語句,主要思路就是避免全表查詢!!優化法則層級對應優化效果及成本經驗參考:優化法則性能提升效果優化成本減少數據訪問1~1000低返回更少數據1~100低減少交互次數1~20低減少服務器CPU開銷1~5低