原创 mahout 讀書
People tend to like things that are similar to other things they like. Mahout contains a recommender engine – several
原创 上線規範
舊版本切換到新版本時:有修改要點 功能設計:必須支持重複導 程序:儘量變量儘量無耦合
原创 hive 錯誤記錄
[hadoop@master ~]$ hive -e "load data inpath '/fenxi_system/cs/20130131/sm
原创 ETL
ETL(Extract-Transform-Load的縮寫,即數據抽取、轉換、裝載的過程)作爲BI/DW(Business Intelligence)的核心和靈魂,能夠按照統一的規則集成並提高數據的價值,是負責完成數據從數據源向目標數據
原创 cron
http://www.liusuping.com/ubuntu-linux/Redhat-linux-at-cron.html http://article.pchome.net/content-522566.html
原创 yelp投票預測
> randomForest( review_votes.useful ~ ., data=rFdata, importance=TRUE, na.action=na.omit,proximity=TRUE,keep.forest=
原创 殘差residual VS 誤差 error
In statistics and optimization, statistical errors and residuals are two closely related and easily confused measures
原创 R語言convesio of json files to csv or R data format
library(RJSONIO) url <- "path/yelp_academic_dataset_business.json"con = file(url, "r")input <- readLines(con, -1L)my_r
原创 ubuntu輸入法切換
lrwxrwxrwx 1 root root 30 Feb 4 10:45 zh_CN -> /etc/alternatives/xinput-zh_CN lrwxrwxrwx 1 root root 30 Feb 4 10:
原创 merge
函數功能2: merge:可以將兩個dataFrame連接在一起,和數據庫中sql語句JOIN很相似。Dataframe a(with columns x, y, z) and b (with columns x1, x
原创 R函數
do.call('rbind', lapply(1:10, function(i) unlist(my_results[i]))) reviews_user <- merge(df_reviews, df_user, by='user_
原创 做事
慢慢悠悠的做事也挺好,不必急於求成,不管別人怎樣,有自己的節奏。
原创 decision tree
recent surveys claim that it’s the most commonly used technique. One of the best things about decision trees is that hu
原创 知識細節
非參數統計 數理統計學的一個分支。如果在一個統計問題中,其總體分佈不能用有限個實參數來刻畫,只能對它作一些諸如分佈連續、有密度、具有某階矩等一般性的假定,則稱之爲非參數統計問題。 optimization algorithm: Th
原创 特徵選取
增益值算法