原创 day71 Charles&scrapyd&scrapy-redis

今天講抓包工具的charles的使用;一個示例:鬥魚圖片的直播間圖片的抓取並且存放在MongoDB中;爬蟲項目的遠程部署及使用scrapy-redis模塊進行分佈式爬蟲。 Charles Charles是一個Mac端用來抓取手機

原创 linux鍵盤映射修改

linux 鍵盤映射修改 1. xmodmap xmodmap -pke | grep -i tab 查看相應按鍵的鍵碼值(keycode) xmodmap -pke | grep -i 1 查看全部的鍵碼值 vim ~/.Xm

原创 day072 項目_AQI

今天是一個項目——www.aqistudy.cn 全國空氣質量歷史數據存儲的網站的爬取。 使用spider爬取,分別存儲爲json文件,csv文件,存儲到mongoDB中,redis數據庫中;使用crawl_spider

原创 day068 多任務爬蟲&Selenium+PhantomJS&Tesseract-OCR

對於具有大量數據的爬蟲任務,單進程/線程就會顯得捉襟見肘,爬取速度會比較慢,如果需要加快速度,就需要選擇多線程/協程 進行處理;如果反爬蟲中有對js代碼進行加密的時候,一般的爬蟲手段都會失效,那麼解決的辦法有一種就是,直接調用Se

原创 day073 項目_IT橘子爬蟲

今天,做了一個爬蟲的新項目——IT桔子(www.itjuzi.com/company)的信息爬取. IT桔子是關注IT互聯網行業的結構化的公司數據庫和商業信息提供商 IT桔子致力於通過信息和數據的生產、聚合、挖掘、加工、處理,幫

原创 數據分析 matplotlib.pyplot 模塊 簡單使用

jupter notbook ; matplotlib 什麼是數據挖掘 對大規模數據進行自動或者半自動化的分析,得到之前不知道的有價值的潛在信息 舉個例子:從共享單車的客戶使用信息得到國慶節前後,單車使用量的趨勢變化 爲什麼要

原创 matplotlib.pyplot繪製不同圖型&Numpy

不同的圖形的應用場景 折線圖 顯示數據的變化,趨勢 如,溫度隨時間的變化 plt.plot(a,b) 條形圖(柱狀圖) 顯示數據之間的大小比較 如,電影院每天排片的所有電影的票房比較 plt.bar(a,b) 直方圖 反應數據在

原创 day075 SHELL_流程控制&代碼發佈

awk命令 強大的文檔編輯工具,可以以行也可以以列來標記文檔 格式 awk 參數 ‘動作’ 文檔 常用參數 -F :指定行的分隔符 常用動作 print :顯示內容 $0,表示當前行的所有看列 $n,表示當前行的第n列 示

原创 day067 mongoDB_advance&反爬蟲&反反爬蟲

昨天是mongoDB的初步瞭解,今天是進一步的提高使用,聚合查詢,索引操作,以及備份,恢復操作。另外,簡單介紹一下,反爬蟲,反反爬蟲。。。 聚合查詢 聚合查詢是指,利用mongoDB自帶的管道以及,方法進行鏈式查詢想要的數據的過

原创 day074 SHELL入門及進階

SHELL快速入門 學習目標 瞭解運維和自動化運維是什麼及工作實現方式 記住shell是什麼,說出shell的兩分類 知道shell腳本的特點是什麼 運維 運維是什麼? 運維是公司的一個技術崗位,負責程序的規劃,管理,安全,

原创 pandas_2

使用pandas也可以畫圖 plot方法 -data.cumsum().plot(),plt.show() pandas讀取數據 常用的數據類型是 .csv,.h5(hdf5) 讀取.csv文件:pandas.read_csv

原创 day069 Scrapy_base_use

scrapy框架 scrapy是一個爬蟲框架。由引擎,爬蟲程序,調度表,下載器以及管道組成。 引擎負責其他四個模塊的調度 爬蟲程序是爬蟲的起點,負責生成url以及對下載器下載的response的處理 調度表是對傳過來的url進行

原创 day070 CrawlSpider

CrawlSpider的基本使用,Request,Response,DownloadMiddlewares,Settings CrawlSpider 所有自定義的spider爬蟲類都會繼承scrapy.Spider類,Spide

原创 python基礎_review

編程語言:編程語言是控制可以直接或者間接控制計算機來執行任務的字碼。 c /c#/c++/java/lua/python/Shell/go… python簡介: python是最近比較受歡迎的編程語言 是一種解釋性的語言,

原创 nginx無法啓動: libpcre.so.1/libpcre.so.0: cannot open shared object file解決辦法

NGINX啓動時提示錯誤 /usr/local/nginx/sbin/nginx -t /usr/local/nginx/sbin/nginx: error while loading shared libraries: li