原创 ggplot2學習筆記之分面

  分面是一個強大的工具,可以快速分析出數據各子集模式的異同。ggplot2 提供了兩種分面類型。 1.網格分面(facet_grid)   網格分面在2 維網格中展示圖形。輸入數據時,你需要考慮哪些變量作爲行,哪些變量作爲列,規則如下:

原创 hadoop僞分佈式安裝

環境準備: 假設已經安裝有Centos6.4服務器的vmware虛擬機,並且與本機win相互連通(安裝不多說,百度一大把); jdk與hadoop版本:jdk-8u65-linux-x64.tar.gz,hadoop-2.7.1.tar

原创 jiebaR中文分詞快速入門

參考於jiebaR中文分詞幫助文檔,做了個筆記,方便以後學習。這裏有官方英文文檔,以及jiebaR官網。 1. 分詞 jiebaR提供了四種分詞模式,可以通過函數worker()來初始化分詞引擎,使用函數segment()進行分詞。具體

原创 python模擬新浪微博登陸之獲取cookies

首先感謝敲代碼的耗子,之前一直搞不懂登陸新浪微博的原理,看了他那篇文章之後,終於明白了基本原理。在這裏主要是通過代碼實現那篇文章的過程。 獲取網頁使用的包是requests,正則匹配用的是re,其他需要的還有base64、rsa、bina

原创 XML和XPath使用方法備忘(轉載)

XML和XPath使用方法備忘(轉載) 如果把XML看作傳統的關係數據庫,那麼XPath就是SQL。R語言中的XML包可用來解析處理XML或是HTML數據。在之前的文章中,我們瞭解到readHTMLTable函數,如果頁面中的數據是一個規

原创 ggplot2學習筆記之手動離散型標度

       使用以下手動型標度可以定製新的標度:scale_colour_manual(..., values)、scale_fill_manual(..., values)、scale_size_manual(..., values)

原创 使用xshell連接vmware虛擬機安裝的centos服務器

作爲筆記使用: 我虛擬機上centos系統使用的虛擬機網卡IP是192.168.128.1: Centos系統IP地址必須與虛擬網卡IP在同一網段,才能相互訪問,可以設置爲192.168.128.xxx。 使用命令“vi /etc

原创 ssh無密碼登陸

筆記 1、修改主機(非必要) 爲了後面方便輸入,修改主機名,修改“/etc/sysconfig/network”文件,使用root用戶,加入以下代碼 HOSTNAME=m HOSTNAME=s(另一臺) 修改/etc/hosts文件,增

原创 python 文件、目錄操作(新增、移動、刪除等)

python中對文件、文件夾的操作需要涉及到os模塊和shutil模塊。 創建空文件 os.mknod("test.txt") 直接打開一個文件,如果文件不存在則創建文件 open("test.txt",w) 創建目錄 o

原创 R語言:表達式、數學公式、特殊符號

  在R語言的繪圖函數中,如果文本參數是合法的R語言表達式,那麼這個表達式就被用Tex類似的規則進行文本格式化。 y <- function(x) (exp(-(x^2)/2))/sqrt(2*pi) plot(y, -5, 5, ma

原创 CentOS 安裝R語言

環境準備 在編譯R之前,需要通過yum安裝以下幾個程序: # 使用root用戶 su root # 安裝gcc-gfortran yum install gcc-gfortran # 安裝gcc gcc-c++ yum install

原创 python使用cookie登陸新浪微博用戶信息

在上一篇博客python模擬新浪微博登陸之獲取cookies中,已經實現了登陸新浪微博並把cookie保存了下來。接下來通過得到的cookie去訪問新浪微博其他頁面,並獲取我們想要的信息。 順便一提,我的軟件是python2.7.10(6

原创 ggplot2學習筆記之顏色標度

           除了位置標度之外,最常用的圖形屬性就是顏色了。對於連續型變量有三種基於漸變的方法,對於離散型有兩種方法。rgb 編碼的色彩空間使用了紅、綠、藍三種光的強度來表示一種顏色,這種色彩空間