原创 mahout 讀書

People tend to like things that are similar to other things they like. Mahout contains a recommender engine – several

原创 上線規範

舊版本切換到新版本時:有修改要點  功能設計:必須支持重複導 程序:儘量變量儘量無耦合

原创 hive 錯誤記錄

[hadoop@master ~]$ hive -e "load data inpath '/fenxi_system/cs/20130131/sm

原创 ETL

ETL(Extract-Transform-Load的縮寫,即數據抽取、轉換、裝載的過程)作爲BI/DW(Business Intelligence)的核心和靈魂,能夠按照統一的規則集成並提高數據的價值,是負責完成數據從數據源向目標數據

原创 cron

http://www.liusuping.com/ubuntu-linux/Redhat-linux-at-cron.html http://article.pchome.net/content-522566.html

原创 yelp投票預測

> randomForest( review_votes.useful ~ ., data=rFdata, importance=TRUE, na.action=na.omit,proximity=TRUE,keep.forest=

原创 殘差residual VS 誤差 error

In statistics and optimization, statistical errors and residuals are two closely related and easily confused measures

原创 R語言convesio of json files to csv or R data format

library(RJSONIO) url <- "path/yelp_academic_dataset_business.json"con = file(url, "r")input <- readLines(con, -1L)my_r

原创 ubuntu輸入法切換

lrwxrwxrwx 1 root root   30 Feb  4 10:45 zh_CN -> /etc/alternatives/xinput-zh_CN lrwxrwxrwx 1 root root   30 Feb  4 10:

原创 merge

函數功能2:        merge:可以將兩個dataFrame連接在一起,和數據庫中sql語句JOIN很相似。Dataframe a(with columns x, y, z) and b (with columns x1, x

原创 R函數

do.call('rbind', lapply(1:10, function(i) unlist(my_results[i]))) reviews_user <- merge(df_reviews, df_user, by='user_

原创 做事

慢慢悠悠的做事也挺好,不必急於求成,不管別人怎樣,有自己的節奏。

原创 decision tree

recent surveys claim that it’s the most commonly used technique. One of the best things about decision trees is that hu

原创 知識細節

非參數統計 數理統計學的一個分支。如果在一個統計問題中,其總體分佈不能用有限個實參數來刻畫,只能對它作一些諸如分佈連續、有密度、具有某階矩等一般性的假定,則稱之爲非參數統計問題。 optimization algorithm: Th

原创 特徵選取

增益值算法