原创 Centos下R語言的出錯及解決(持續更新中)

(1)安裝RODBC包 不能直接在R下用 install.packages("RODBC")安裝。 前提條件是先要用YUM安裝兩個包: # yum install unixODBC # yum install unixODBC-deve

原创 R中的因子變量及處理

因子用來存儲類別變量(categorical variables)和有序變量,這類變量不能用來計算而只能用來分類或 者計數。因子表示分類變量,有序因子表示有序變量。 1、用cut()函數將一般的數據轉換成因子或有序因子 例1: exam

原创 linux下不能畫圖的問題解決

【報錯】: > hist(clf2$school) [rsession-enn_james] ERROR r error 4 (R code execution error) [errormsg=Error in .External2(C

原创 深度學習進行時間序列模式識別

思路:將時間序列轉化爲圖像類似的格式,然後進行CNN識別。 深度學習在流量識別中的應用 http://wenku.baidu.com/link?url=5MHAlbaAFX8g9uCnWyR6RGEsWdka7suaR3bFLanZ-

原创 機器學習實踐中的7種常見錯誤

統計建模非常像工程學。 在工程學中,有多種構建鍵-值存儲系統的方式,每個設計都會構造一組不同的關於使用模式的假設集合。在統計建模中,有很多分類器構建算法,每個算法構造一組不同的關於數據的假設集合。 當處理少量數據時,嘗試

原创 【讀書筆記】互聯網廣告綜述之點擊率特徵工程

互聯網廣告綜述之點擊率特徵工程 http://blog.csdn.net/mytestmy/article/details/19088827 讀書筆記: 1、對特徵的處理,無論是離散的(如性別,年齡),還

原创 Spark 1.5中數據科學的進展

還沒來得及去跑,先記下來。 spark 1.3  出來dataframe spark 1.4  出來sparkR spark 1.5  出來機器學習的pipeline 數據科學API之擴展 在2015年,Spark研究的主要

原创 sapply與自定義函數配合使用

> a<-matrix(1:12,c(3,4))> a.df<-data.frame(a) > a.df   X1 X2 X3 X4 1  1  4  7 10 2  2  5  8 11 3  3  6  9 12 > sapply(

原创 leafletR的幾個注意

1、toGeoJSON挑字符格式 亂碼一定要清除掉,否則出差,尤其是互聯網爬的數據,要用正則去處理。常用的清理方法如下: hp.df$loupanmingcheng<-gsub("[^a-zA-Z0-9\u4e00-\u9fa5]","

原创 用R語言的RCurl和正則表達式爬團購網的旅遊團購數據

用R裏的包Rcurl和正則表達式,代碼如下 url1='http://www.dianping.com/search/category/2/10/g110'web=readLines(url1,encoding='UTF-8');  #逐

原创 R的啓動順序及執行文件

R的啓動順序 R啓動時的一系列過程(使用help(Startup)命令查看詳細信息): 如果沒有在命令行中執行(--no-environ),R會搜索並執行站點文件(Rprofile.site)和用戶文件(.Rprofile)。 1.R執

原创 【D2】Python一週入門

Python中的4種基本類型:元組(Tuple)、列表(list)、集合(set)和字典(dict)。 1、元組 Python中的元組(Tuple)類似於Java中的數組,一旦創建了一個 tuple,就不能以任何方式改變它。這點與Pyth

原创 用python寫spark代碼

How To Write Spark Applications in Python by Shahid Ashraf MapReduce is a programming model and an associated im

原创 logistic迴歸和logic迴歸

logistic迴歸,正確的譯法應該是 對數迴歸,其實就是對線性迴歸公式去對數之後進行。 適合因變量是0/1的二值分佈,推導是以誤差的極大似然法來推導的,不是最小二乘法。 logic迴歸,正確的譯法應該是

原创 利用Python進行機器學習和數據挖掘概述

前言: 本文主要描述了使用Python進行數據挖掘業務的優勢並介紹了相關的數據處理工具包pandas和機器學習算法庫scikit-learn。 爲什麼使用python進行數據分析? 對很多人來說,Python是一種很容易讓人喜愛的