原创 python簡單爬蟲:爬取並統計自己博客頁面的信息(四)

python簡單爬蟲:爬取並統計自己博客頁面的信息(三)中介紹了html解析器的簡單實現,接下來介紹mysql模塊、結果輸出模塊,最後展示一下結果。 10. 數據庫模塊:mysql.py 因爲結果輸出模塊中使用到了mysql,因此在講結果

原创 Centos使用crontab定時任務

1. 簡介 centos下的crontab指令是自帶的,無需安裝 crontab是Linux系統中最有用的工具之一,crontab定時任務是在指定時間執行指定任務 crontab在後臺運行,通過配置 /etc/crontab 文件調度定

原创 配置本地和github的ssh密鑰對:永久多ssh管理(win10)

1. 目的 方便在使用git pull或git push等的時候不需要輸入賬號密碼 2. 生成密鑰對 在~/.ssh下生成密鑰文件id_rsa_github(不需要管理員的cmd的,本人使用的是cmder) cd ~/.ssh ssh-k

原创 python簡單爬蟲:爬取並統計自己博客頁面的信息(三)

python簡單爬蟲:爬取並統計自己博客頁面的信息(二)中介紹了URL管理器和html下載器的簡單實現,接下來介紹html解析器的簡單實現。 9. html解析器(html_parser.py) html解析器的主要任務是從下載好的網頁

原创 python:virtualenv(Centos6.8)

1. 前言 繼安裝好python2.7和pip2.7之後(安裝方法可以戳這裏),爲了更好地在centos上區分python2.6和python2.7的使用,決定學習使用virtualenv,我真的不想再重裝系統了=。= vitualen

原创 python:heapq模塊對嵌套字典或二維列表取topN

1. 對一維列表或非嵌套字典取topN 直接調用python自帶的heapq模塊就可以了: >>> import heapq >>> a_list = [3, 4, 2, 5, 1, 6] >>> c_dict = {'A':3, 'B'

原创 python簡單爬蟲:爬取並統計自己博客頁面的信息(二)

python簡單爬蟲:爬取並統計自己博客頁面的信息(一)中介紹了簡單的爬蟲概念、本文代碼的目的、爬蟲的整體框架、工程目錄結構、全局配置模塊以及日誌模塊,接下來介紹一下簡單的URL管理器和html下載器(無登錄)的實現 7. URL管理器(

原创 C++:string.erase函數

erase函數 erase函數的原型: string& erase ( size_t pos = 0, size_t n = npos ); iterator erase ( iterator position ); iterator e

原创 本地已有的git倉庫同步到github(win10)

1. 準備工作 在本地已有git倉庫管理着的一個項目test\(可以參考這裏) github上已經配置好與本地客戶機對應的ssh 否則就只能用http協議,每次git pull或git push都要輸入賬號密碼,就很麻煩 可以參考這裏

原创 MySQL:向已有數據表中插入新的一列數據

一、需求 有兩個表格,test和test2如下所示: mysql> select * from test; +------+------+------------+ | data | id | timestamp | +------