原创 大衆點評各城市熱門餐廳評分字體加密信息數據採集

    以前寫過兩篇大衆點評的採集代碼,不過由於歷史原因,大衆早已經更換了反爬策略,近期又看了看大衆新的反爬機制,也做了小小的破解,先說說之前大衆前端加密方式:      字體通過加載svg圖片然後通過css樣式控制雪花圖的背景座標,來進

原创 python 創建臨時文件讀寫

python讀 寫臨時文件 看到網上一篇文章提到面試的時候,面試官提到以下要求: 假設你正在編寫的方法,需要每次執行時,在服務器上創建一個臨時文件同時支持書寫部分內容,而後將該文件的位置傳輸給第三方的類。待第三方類獲取到你文本內的數據時

原创 scrapy-Twisted資源文件

在Python3,Windows環境下安裝scrapy框架時候經常會出現Twisted缺少該模塊,同時提示“error: Microsoft Visual C++ 14.0 is required”錯誤信息,所以需要安裝Twisted模塊

原创 Python抓取淘寶手機銷量排行榜

#!/usr/bin/env python # encoding: utf-8 """ @version: v1.0 @author: W_H_J @license: Apache Licence @contact: 41

原创 python List列表查找相同元素下標位置

python的list怎麼查找它的下標呢?並能實現記錄下標位置。如下:list_position_name爲原list,可以發現‘網絡工程師’有多個重複值,那麼我們想知道它的下標,最後返回字典形式。list_position_name=

原创 Spark操作hdfs

Windows平臺spark連接hadoop集羣,並讀取hdfs數據 開發工具:idea 數據hdfs://hdfs://192.168.10:9000/word/ 在idea運行地方,選擇RUN-->Edit-->program arg

原创 代理IP獲取並再次驗證,可生成IP池

在本人用scrapy框架抓取目標網站時由於抓取信息量過大,常常會碰到目標網站封閉本人主機IP,因此學習並找到通過代理IP解決IP限制問題,scrapy裏怎麼設置可參考:scrapy設置IP池,這裏只做代理IP獲取並驗證部分演示。#!/us

原创 一、hadoop生態圈搭建(資源)

hadoop生態圈搭建所需要的資源,基於自己搭建的時候找資源需要去各種網站找,因此在本人搭建完之後把這些資源集中到了一起,然後發佈上來供大家選擇使用。 1、虛擬機vm(選擇性使用)百度雲鏈接:https://pan.baidu.com/s

原创 python QQ聊天機器人,qqbot 使用簡介

一、介紹 qqbot 是一個用 python 實現的、基於騰訊 SmartQQ 協議的 QQ 機器人框架,可運行在 Linux 、 Windows 和 Mac OSX 平臺下。 你可以通過擴展 qqbot 來實現: 監控、收集 QQ 消息

原创 python pandas做數據分析視圖分析matplotlib,seaborn模塊使用

#!/usr/bin/env python # encoding: utf-8 """ @version: v1.0 @author: W_H_J @license: Apache Licence @contact: 41

原创 redisGraph

什麼是GraphRedis?它是redis的一個分支,它是一個支持字符串,列表,哈希,集合和有序集合的數據結構服務器。項目的目標是通過添加圖形支持來擴展redis 。官方參考文檔:點擊打開鏈接節點搭建:gnode graph1 a b c

原创 大衆點評熱門餐廳抓取與數據分析

大衆點評抓取與分析(完整代碼) 背景 有沒有一種去其他城市旅遊的時候想吃地方特色,但是卻又不知道到該去哪裏吃的感覺呢?反正我是有這種感覺,尤其是不想去其他城市卻在泡麪中度過,無法感受當地的美食特色,因此對大衆點評熱門城市熱門店鋪進行了

原创 RedisGraph Python 實現

redisGraph,作爲redis的圖形數據庫剛推出不久,網上案例相對較少,作者及使用者都在探索階段,關於怎麼搭建redisGraph環境可參考官方文檔:http://redisgraph.io/,運行在Linux環境中,主要往原來re

原创 python自然語言處理 jieba分詞處理

自然語言NLP處理之一jieba分詞 需要自行安裝jieba模塊,通常使用pip install jeiba即可安裝,體驗分詞就是那麼簡單。 #!/usr/bin/env python # encoding: utf-8 """

原创 基於phantomjs與robot對網頁截屏

在爬蟲開發過程中,或者其他方面有時候會有這種需求,截取網頁圖片,作爲一種快照信息進行存儲,在最近開發過程中也剛好碰到了這種需求,需要將爬蟲過程中的網頁進行快照信息保存,因此查看了一部分文檔,現提供以下兩種方式進行快照截圖。 Python版