原创 Windows中pyTorch安裝及遇到的xfeatures2d未找到問題解決過程

我的python環境是3.6版本的 安裝系統是win10 首先是到官網進行pytorch安裝命令的查詢 Torch官網,點擊進入 網站反映略慢,原因嘛,大家都懂。 加載完畢,下拉。會看到如下圖 前兩我不解釋了,按照各自的情況自行

原创 關於PEP8報too long問題的解決方式

最近我司要上kpi考覈,其中一個點就是代碼規範問題。 於是就引出了今天要講的事情。 衆所周知,Pycharm中,右側有一條虛線,那個是表明最大的書寫規範長度,也就是一行允許的最長的長度,爲120字符。 如果沒做過設置,那麼當你的行

原创 CSV讀取大文件報錯_csv.Error: field larger than field limit

該問題出現在用csv讀取文件的時候,出現大字段,導致超過字段默認限制,而無法讀取。 因此,需要在使用csv讀取文件前,先設置下csv字段顯示大小。 csv.field_size_limit(500 * 1024 * 1024) f

原创 scrapy中Request請求使用Request payload參數 json或text

今天做爬蟲,又被payload的參數坑了一次,還是要記錄下,否則下次還是容易忘。 如下圖所示,在這個請求中,payload中有個參數在F12中有個‘str’=null的參數,在大家需要寫的時候,如果真的在dict中也這麼寫,很容易

原创 查找列表中最大或最小的 N 個元素(包含字典元素)

怎樣從一個集合中獲得最大或者最小的 N 個元素列表? python自帶的heapq模塊裏的nlargest(最大)和nsmallest(最小)方法就能完美解決了 例子1: import heapq nums = [1, 8, 2,

原创 scrapy-redis實例,分佈爬蟲爬取騰訊新聞,保存在數據庫中

本篇文章爲scrapy-redis的實例應用,源碼已經上傳到github: https://github.com/Voccoo/NewSpider 使用到了: python 3.x redis scrapy-redis

原创 Python安裝hanlp 2.0 出現的問題解決

雖然現在的hanlp2.0 還是處於測試版,但是官方已經能給出了python 源,可以直接 pip install hanlp 進行安裝。 這裏要注意。pyhanlp是1.0版本的,hanlp是2.0版本的 這裏多嘴提一句pyh

原创 nodejs總是提示找不到第三方包

如果在使用nodejs時,需要引入第三方包。 npm install -g 包名 這是安裝一個全局都可用的第三方包。 然而我在使用當中,總是會出現提示這不到我剛裝好包的提示。 那麼你就需要知道一件事情。 1.新建一個文件夾(英文

原创 python中使用splash如何掛代理?

我之前寫過scrapy-splash掛代理的方式 這次應項目需求,沒必要用scrapy做,只需要做一個動態獲取指定網頁的splash中間件即可。 但目標源有ip訪問量檢測。因此需要掛代理 那麼…該如何掛上代理呢。 如下圖: 昨天

原创 windows下Kafka的環境配置和啓動以及測試(Kafka-python API)

環境: python 3.5 kafka-python 1.4.6 kafka環境:2.11-2.30 zookeeper環境:同上(ps:現在下載kafka環境包的時候,會同時搭載zookeeper,不需要專門安裝了) 第一步:

原创 動態gif圖按照幀數提取後,合成一張圖片

運行環境:python 3.5 win10 from PIL import Image import os def cutList(): gifFileName = 'test.gif' # 使用Image模塊

原创 python 根據條件快速生成一個新的字典

通常處理dict類型的數據的時候,都是需要根絕字典的key來進行操作 在python中,可以通過特定的方法來進行獲取 peoples = { '廣東省': 104303132, '山東省': 95793065,

原创 裁判文書網爬蟲

本次腳本運行環境: python 3.X 運行py環境 Node.js(V8) execjs依賴 DBUtils 多線程數據庫連接 pymysql 數據存儲 redis ip緩存 裁判文書數

原创 搜狗微信爬蟲獲取文章信息

author:Voccoo time:2019-4-1 """ 1.本demo只是爲了爬取指定公衆號或指定關鍵字下公衆號,限定時間內所發送的文章。 若要獲取公衆號信息,一併存取,請根據第一條gzhurl做以修改,或者從文章中直接獲

原创 爬蟲的藝術:善用www.***.com/robots.txt

說到爬蟲,大家吃IT這行飯的人,肯定不陌生了。 什麼事爬蟲我就不在這裏解釋了。 我今天只是想給吃這行飯的人一個善意的提醒。 1:爬蟲中最讓人撓頭的就是各種驗證限制,天眼查,企查查,美團,餓了麼等等, 爲啥他們一定要做各種反爬措施? 一