原创 一天一段scala代碼(十五)
一天一段scala代碼(十五) 爲了更好的駕馭spark,最近在學習scala語言特性,主要看《快學scala》,順便把一些自己認爲有用的代碼記下來。 package examples object Ex
原创 一天一段scala代碼(九)
一天一段scala代碼(九) 爲了更好的駕馭spark,最近在學習scala語言特性,主要看《快學scala》,順便把一些自己認爲有用的代碼記下來。 package examples import scala
原创 一天一段scala代碼(八)
一天一段scala代碼(八) 爲了更好的駕馭spark,最近在學習scala語言特性,主要看《快學scala》,順便把一些自己認爲有用的代碼記下來。 package examples class Per
原创 map-reduce入門
map-reduce入門 最近在改寫mahout源碼,感覺自己map-reduce功力不夠深厚,因此打算系統學習一下。 map-reduce其實是一種編程範式,從統計詞頻(wordCount)程序來講解map-reduce的
原创 Numpy數組的序列化和反序列化
在處理圖像數據時,有這麼一種需求:圖像通常是一個矩陣數據,需要將矩陣數據通過base64編碼傳輸,傳輸完畢之後解碼還原得到原來的矩陣數據。 import numpy as np import base64 matrix_data
原创 遠程終端docker容器linux操作系統安裝MATLAB
遠程終端docker容器linux操作系統安裝MATLAB 安裝參考流程: linux終端(服務器)安裝matlab2016b https://blog.csdn.net/u014535579/article/details/
原创 一天一段scala代碼(十二)
一天一段scala代碼(十二) 爲了更好的駕馭spark,最近在學習scala語言特性,主要看《快學scala》,順便把一些自己認爲有用的代碼記下來。 package examples object Exam
原创 一天一段scala代碼(十一)
一天一段scala代碼(十一) 爲了更好的駕馭spark,最近在學習scala語言特性,主要看《快學scala》,順便把一些自己認爲有用的代碼記下來。 package examples class Fr
原创 給大數據文件的每一行產生唯一的id
給大數據文件的每一行產生唯一的id 4個主要思路: 1 單線程處理 2 普通多線程 3 hive 4 Hadoop 搜到一些參考資料 《Hadoop實戰》的筆記-2、Hadoop輸入與輸出 https://book.douban
原创 相似度計算map-reduce實現思路
相似度計算map-reduce實現思路 輸入: 1 f(1) 2 f(2) 3 f(3) 4 f(4) mapper: 1,2 f(1) 1,3 f(1) 1,4 f(1) 1,2 f(2) 2,3 f(2) 2,4 f(
原创 一天一段scala代碼(十三)
一天一段scala代碼(十三) 爲了更好的駕馭spark,最近在學習scala語言特性,主要看《快學scala》,順便把一些自己認爲有用的代碼記下來。 package examples object Exa
原创 一天一段scala代碼(十六)
一天一段scala代碼(十六) 爲了更好的駕馭spark,最近在學習scala語言特性,主要看《快學scala》,順便把一些自己認爲有用的代碼記下來。 package examples object Exam
原创 xgboost快速入門
xgboost快速入門 xgboost是gbdt算法的實現,可以做迴歸,分類,和排序。支持各種語言調用,支持單機和分佈式。非常適合於大規模數據集。 項目主頁 https://github.com/dmlc/xgboost 安
原创 一天一段scala代碼(十四)
一天一段scala代碼(十四) 爲了更好的駕馭spark,最近在學習scala語言特性,主要看《快學scala》,順便把一些自己認爲有用的代碼記下來。 package examples object Exa
原创 liblinear簡單使用說明
liblinear簡單使用說明 liblinear適合解決大規模數據和高維稀疏特徵的分類和迴歸問題。 特徵文件格式:跟libsvm的一致,每一行都是 label index1:value1 index2:value2 的稀疏向量