原创 scrapy簡明教程

scrapy 0.24 簡明教程 新建工程 scrapy startproject <project-name> 目錄結構如下: │ scrapy.cfg └─demo │ items.py │ pipeli

原创 crontab任務輸出數據會自動發送郵件

crontab中任何程序產生的輸出都會以郵件的形式發送出來,發送對象一般由MAILTO指定。如果你沒有接受到郵件,一般有一下幾種可能: 1.任務根本無法執行 2.發送郵件失敗 3.任務不會有任務輸出 配置示例如下: MAILTO=my

原创 Unable to find vcvarsall.bat解決辦法

windows上如果沒有安裝 visual studio, 也就是俗稱的vs, 在安裝一些帶有c或者c++代碼的python模塊的時候, 會報錯Unable to find vcvarsall.bat. 主要的問題是你的vs沒裝, 裝了

原创 RPDB-讓PDB(Python調試工具)支持遠程調試功能

軟件已更新,最新請查看:https://code.google.com/p/stonelab/wiki/pdbx 軟件介紹 rpdb擴展了pdb,讓pdb支持遠程調試功能。 使用了rpdb的python腳本在遠程啓動,本地通過telnet

原创 Linux性能監控指令vmstat

一、概述 監控通常分爲機器監控和服務監控,機器監控是基礎監控,目的是爲了獲得系統當前的運行狀態,服務監控則是主要目的,也是最應該關心的監控,機器監控也是爲了更好的服務監控而存在,簡單來說,服務監控和系統上部署的具體服務有關,但監控模式可以

原创 Ubuntu 14.10安裝SecureCRT 7.3

Ubuntu 14.10安裝SecureCRT 7.3 1、軟件準備 Ubuntu14.10 x64 SecureCRT7.3的版本:scrt-7.3.0-657.ubuntu13-64.x86_64.deb 下載地址: http://w

原创 hadoop簡要教程

hadoop簡要教程 概述 hadoop是apache軟件基金會旗下的一個開源分佈式計算平臺。 大數據的特點4v,volume(量大)、variety(種類多)、value(價值密度低)、velocity(處理速度快) 雲計算因

原创 LaTeX 中的特殊符號

LaTeX Symbols (From Alavaro Loustau's LaTeX tutorial) 11 Jan 95 Foreign symbols. (Text mode) Accents. (Text mode) Ma

原创 mongodb簡要教程

mongodb簡要教程 1.介紹 mongodb是面向文檔的數據庫。沒有模式,文檔的健不用事先定義。爲大數據設計,考慮到擴展問題。 文檔:mongodb中數據的基本單元。 集合:沒有模式的表。 數據庫:mongodb的單

原创 數據挖掘概述

數據挖掘 緒論 什麼是數據挖掘 是從大量數據中挖掘有趣模式和知識的過程。 可以挖掘的數據類型 數據庫數據 數據倉庫 事務數據 其他類型數據 時間相關(股票)、空間(地圖)、超文本和多媒體(視頻和音頻)等 可以挖掘的模式類型

原创 Linux命令之reset - 終端屏幕混亂的終結者

用途說明 reset命令是用來重新初始化終端的(terminal initialization)。在有些情況,終端顯示會混亂無比,比如不小心顯示了一個二進制文件,以前我在不知道reset命令時,只好將終端強行關閉,然後重新登錄。現在只需要

原创 hdfs簡要教程

hdfs簡要教程 主要特點 處理超大文件 MB,TB 流式訪問數據 讀取大文件不需要特別大的內存 運行於廉價商用機器集羣上 意味着節點故障率比較高 侷限 不適合低延遲的數據訪問 無法高效存儲大量小文件 文件的索引等元數

原创 No module named win32api問題解決

Python是沒有自帶訪問windows系統API的庫的,需要下載。庫的名稱叫pywin32,可以從網上直接下載。 以下鏈接地址可以下載:http://sourceforge.net/projects/pywin32/files%2F

原创 用 proxychains 做透明代理

有時候需要連接某機器,但是直接連被屏蔽了,雖然可以用代理來搞定一些應用程序,但是很多程序不支持代理,或者只支持某些類型的代理,這時候就可以試一試 proxychains 這個軟件了。   比如:svn 只支持 HTTP 代理,不支持 so

原创 hadoop yarn簡明教程

yarn架構設計與實現原理 產生的背景 mrv1的侷限性 擴展性差 jobtracker限制 可靠性差 jobtracker單點故障 資源利用率低 槽位之間的資源無法共享 無法支持多種計算框架 輕量級彈性計算平臺 數據密集型應