原创 《Spark官方文檔》Spark操作指南

《Spark官方文檔》Spark操作指南 轉載自:原文鏈接   譯者:小村長 Spark–Quick Start 本項目是 Apache Spark官方文檔的中文翻譯版,致力於打造一個全新的大數據處理平臺來滿足大數據處理和分析的各

原创 python3的內建函數

print(abs(-10)) #取絕對值print(all([0,'a',3])) #如果參數中有一個不爲真,就返回False。(非0即真)print(any([0,'a',3])) #如果參數中有一個爲真,就返回True#返回一

原创 如何設置Scala的ide及配置ide

一、下載用於Scala變成的ide"idea" http://www.jetbrains.com/idea/download/download-thanks.html?platform=mac 下載Ultimate版本,激活碼爲: 二

原创 R語言-data.table包使用(方便自己使用參考)

R語言-data.table包它的fread函數讀取1G的CSV文件才用了20s左右。其他對data.frame的操作,也快了N倍特點data.table(DT)的操作語句類似於SQL,DT[i, j, by]中的i, j, by 對應着

原创 hive函數_split 字符串分割函數

hive字符串分割函數  轉自http://blog.csdn.net/lxpbs8851/article/details/18712407 split(str, regex) - Splits str around occ

原创 pandas使用方法

一、生成數據表  1、首先導入pandas庫,一般都會用到numpy庫,所以我們先導入備用: import numpy as np import pandas as pd12 2、導入CSV或者xlsx文件: df = pd.DataF

原创 xgboost: 速度快效果好的 boosting 模型

xgboost: 速度快效果好的 boosting 模型 何通 關鍵詞:boosting; Gradient Boosting Machine; xgboost; 數據建模預測 本文作者:何通,SupStat Inc(總部在紐約,中

原创 在R中使用XGBoost算法

介紹 你知道 XGBoost 算法是一種現在在數據科學競賽的獲勝方案很流行的算法嗎? 那麼,他比傳統的隨機森林和神經網絡算法強在哪裏呢?廣義上來說,它在效率,準確性,可行性都更有優勢(接下來我們將會詳細討論)。 在最近的幾年中,模型預

原创 如何更新os系統的java

如何更新os系統的java 一、打開terminal 二、檢查java版本 輸入java -version 三、進入根目錄(轉換爲超級管理員身份) 輸入 sudo -i 四、查找java所在文件夾 輸入find / -name java

原创 Git 在團隊中的最佳實踐--如何正確使用Git Flow

我們已經從SVN 切換到Git很多年了,現在幾乎所有的項目都在使用Github管理, 本篇文章講一下爲什麼使用Git, 以及如何在團隊中正確使用。 Git的優點 Git的優點很多,但是這裏只列出我認爲非常突出的幾點。 由於是分佈式

原创 GBDT和Xgboost模型對比總結

一.GBDT有哪些參數,如何確定樹的深度,學習率怎樣確定。 答:本題答案引自http://www.07net01.com/2016/12/174207

原创 R語言data.table速查手冊

原文鏈接:http://blog.csdn.net/a358463121/article/details/51910062介紹R中的data.table包提供了一個data.frame的高級版本,讓你的程序做數據整型的運算速度大大的增加。

原创 爲何工業界多用離散邏輯迴歸

在工業界,很少直接將連續值作爲邏輯迴歸模型的特徵輸入,而是將連續特徵離散化爲一系列0、1特徵交給邏輯迴歸模型,這樣做的優勢有以下幾點:離散特徵的增加和減少都很容易,易於模型的快速迭代;稀疏向量內積乘法運算速度快,計算結果方便存儲,容易擴展

原创 spark環境變量設置方法

第一步,找到spark的路徑:輸入 sudo -i進入根目錄,輸入find / -name spark 第二步,根目錄下輸入vim /etc/profile,進入環境變量編輯文件,輸入以下內容後保存退出: export SPARK_HO

原创 pagerank

原文鏈接:https://www.jianshu.com/p/e6401638af48 一. Pagerank介紹 PageRank算法以前就是Google的網頁排序算法。PageRank算法,