原创 技術無界,爬蟲有邊界

網絡爬蟲的應用場景多種多樣,典型場景之一是網絡上搜索引擎的後臺爬蟲,包括Baidu、Google、Bing等等。近來的一些關於網絡爬蟲不合理使用的事件又引起了大家關注,一個關鍵的問題是網絡爬蟲能抓取什麼數據,也就是爬蟲的法律邊界問題。

原创 爬蟲系列之Selenium 庫學習

1、基本使用 fromselenium importwebdriver fromselenium.webdriver.common.by importBy fromselenium.webdriver.support importe

原创 解決Python3.6中PyKeyboard插件無法輸入中文字符的問題

今天在在編寫基於微信PC端,進行關鍵詞搜索採集時,通過PyKeyboard的type_string方法,可以向搜索框中輸入字母、數字,但是漢字一直無法輸入。後來才發現,PyKeyboard在Python3.6中存在缺陷。解決方法如下:

原创 各地援助湖北醫療隊彙總

2020年春節伊始,新型冠狀病毒感染的肺炎疫情不期而至,各行各業積極投入到這場沒有硝煙的戰鬥。疫情就是命令,防控就是責任。 新冠肺炎疫情發生以來,各地醫療力量從四面八方向不斷向湖北集結。我們14億人民就是一個大家庭,全國各族人民就

原创 自媒體用戶採集之(一)百家號採集

最近幾年一直在做數據採集的工作,發現現在數據越來越難以採集了。尤其是最近兩年自媒體起來以後,好多數據都無法採集全。比如最難處理的就數今日頭條了,然後是百家號、大風號啊這些自媒體。 以後要是想要把數據採集全,看來媒體號的採集已經是不可避免

原创 運維繫列之FastAPI接口服務

最近在對以前的採集系統進行改版,同時對原來的運維部分也進行了改版。以前的運維功能模塊,是基於Java開發,通過Java來執行相應的命令,但是不管是windows還是Linux系統,都不是很穩定,總是出現無法關閉、啓動等問題。本次改版計劃

原创 解決Python3.6中PyKeyboard無法輸入中文的問題

        由於搜狗微信,先前下架了對搜索列表的時間過濾篩選,無奈,最近在編寫基於微信PC客戶端的搜索採集腳本。在開發、測試中遇到一個怪異的問題,漢字一直無法輸入。但是,字母和數據卻沒有問題,後來網上搜了搜才知道,原來是Python

原创 自媒體之百家號發文前100名

最近在研究自媒體相關的東西,對百家號、企鵝號、壹點號、搜狐號、惠頭條等十餘個自媒體平臺,進行了較詳細的研究。通過對百度搜索中獲取的幾十萬的百家號信息,整理出了下面一百個發文最多的賬號,供大家參考。 排名     百家號