原创 Spyder配置

說明 入科學計算的坑,人生苦短,還是用python吧。 目前比較好的環境還是Winpython,下載完成後,默認裝好了三大包!numpy,pylab, scipy。當然還有pandas了。 關鍵是,裏面自帶了一個Spyder的

原创 (Gitchat備份)微博爬蟲,單機每日千萬級的數據 && 吐血整理的微博爬蟲總結

Update 已經構建了每日億級的微博全網用戶採集,千萬級微博用戶資料和上億微博語料數據,戳這裏全網微博數據每日億級實時採集 1. 前言 這是本人第一次做Gitchat,非常榮幸能夠將我這段時間對微博數據的抓取工作整理成這篇文章,

原创 爬蟲利器:Selenium+PhantomJS

Selenium Selenium是一個可以真實模擬瀏覽器運作的工具。 需要下載selenium.exe文件和安裝selenium包。 下面是一個簡單的模擬訪問百度,並點擊進入python官網的例子。 # coding=utf-

原创 Selenium使用小結

本篇博客記錄在使用Selenium過程中遇到的問題。 action的使用 對於有的超鏈接,並不能通過獲取元素後使用.click()來模擬點擊。 需要使用action來進行模擬,完全模擬人的行爲,即先移動鼠標到元素上面,在模擬點擊

原创 Ubuntu下Django的部署

先查看是否佔用80端口:lsof -i:80 如果佔用: 通過kill PID來殺死進程 下面再根目錄下測試: nohup python manage.py runserve 0.0.0.0:80 點贊

原创 Mupad使用小結

Mupad是什麼? Mupad是Matlab的一個工具箱,在Matlab下通過命令mupad即可進入 Mupad可以做一個超級計算器、化簡,解微分方程,畫圖像!總之,一切數學相關的都可以,而且非常優雅! Mupad的具體使用

原创 全網微博數據每日億級實時採集

前言 做微博數據抓取有很長一段時間了,最近把這樣任務做到了極致。 簡單的說,就是,現在全網任何活躍用戶發送的一條微博,能夠實時抓取到並存入本地數據庫。 這項工作對微博網絡輿情的監控預警,有非常重大的意義. 下面是針對這項工作的測試數據

原创 Clean Code 讀書筆記

整潔代碼 勒布朗法則: 稍等等於永不 (Later equals never) 程序一開始就要好好寫,不要想着以後來維護 保持代碼的整潔,不但關乎效率,還關乎生存 讀與寫時間的比例超過10:1。寫新代碼的時候,我們一直在

原创 常用的推薦算法小結

推薦系統的必然 互聯網發展到現階段,信息已經不是匱乏,而是爆炸。所以良好的用戶體驗就是把用戶喜歡的,感興趣的從大量的數據中篩選出來,再呈現給用戶,實現千人千面的效果。 所以推薦系統的出現就是必然了,他可以推薦每個用戶感興趣的產品,同時

原创 HTTPS與HTTP

HTTPS 大創中做APP的後端,一個完整的rest框架,要求數據傳輸採用https協議。因爲客戶端與後端直接會涉及用戶的私密用戶數據,而採取http協議實際上就是明文傳輸,這是不能接受的。 而HTTPS並非是應用層的一種新協議.

原创 GitHook實現Django自動化部署

前言 項目中Django自動化部署的要求是:master分支,push了新的commit,需要自動拉去最新的代碼,重啓uwsgi,直接部署新版本上線。通過日誌文件遠程監控部署狀態。 原來一直寄託與github的webhook來實現,但

原创 Django連接遠程數據庫

前言 Django項目中,數據庫最好只有一個。不採用原先默認的Sqlite3數據庫,採用搭在阿里雲上Mysql。這樣開發的時候避免倉庫中含有數據庫文件,數據不能統一。採用一個遠端數據庫,可以保證多人開發,共享一個數據庫,實現數據統一。

原创 阿里雲 ubuntu 部署hexo,並與本地同步,實現自動部署

前言 用hexo搭建博客時看了很多教程,大部分都是講怎樣部署到Github Pages,但是Github Pages有時候訪問有問題,就想直接部署在阿里雲的ECS(操作系統爲ubuntu)上,經過半天的搜索和摸索,找個一個比較好的方法

原创 Django在生產環境中的部署

基本思路 方案:Nginx+uwsgi 這樣大體的流程是:nginx作爲服務器最前端,負責接收client的所有請求,統一管理。靜態請求由Nginx自己處理。非靜態請求通過uwsgi傳遞給Django,由Django來進行處理,從

原创 DES加密

DES DES屬於第一種對稱加密技術 DES(數據加密標準)算法主要採用替換和移位的方式進行加密, 用56位(64位密鑰只有56位有效)對64位二進制數據塊進行加密, 每次加密對64位的輸入數據進行16輪編碼, 經過一系列替換