原创 Spark MLlib 入門學習筆記 - 決策樹

在官方API文檔可以查到用法。 def trainClassifier(input: RDD[LabeledPoint], numClasses: Int, categoricalFeaturesInfo: Map[Int, Int],

原创 NumPy 基礎

NumPy 提供一個N維數組對象類ndarray。它是SciPy和Scikit-learn等的數據結構,它支持快速線性代數計算。 創建數組 從list到一維數組 import numpy as np list_of_ints = [1,

原创 Jenkins 筆記

Jenkins 筆記Jenkins 入門 - 01- 安裝部署基礎環境安裝jenkins Jenkins 入門 - 01- 安裝部署 基礎環境 操作系統 ,Cent OS 7.x 用戶組和用戶 devops/devops [

原创 Go語言入坑記錄

Go語言入坑記錄原因目標語言特性相關Excel文件讀寫文件操作json文件讀寫xml文件讀寫日誌文件讀寫http client命令行參數小結 原因 本來主要使用Python,但是由於運行環境受限制的原因,依賴包的維護比較麻煩。因此

原创 Spark MLlib 入門學習筆記 - 樸素貝葉斯

在官方的API文檔可以查到用法。 def train(input: RDD[LabeledPoint], lambda: Double, modelType: String): NaiveBayesModel input RDD of (

原创 git 常用操作備忘

1. git 查看查看遠程倉庫分支 (demo) oliver@oliver:~/_demo/demo-app$ git remote -v origin https://github.com/targetoyes/book-demo.

原创 Spark SQL 配置

配置好hive後,spark sql 配置就很簡單了,實際上只要配置一個hive-site.xml文件,拷貝到spark/conf目錄下。這個文件是給spark使用的,hive的配置文件用自己的配置文件。 1. 配置hive-site.x

原创 scikit-learn K最近鄰分類器 KNeighborsClassifier 使用

1. KNN算法 K最近鄰(k-Nearest Neighbor,KNN)分類算法的核心思想是如果一個樣本在特徵空間中的k個最相似(即特徵空間中最鄰近)的樣本中的大多數屬於某一個類別,則該樣本也屬於這個類別。KNN算法可用於多分類,KNN

原创 Hive 安裝 python thrift 連接hiserver2

1. 軟件列表 apache-hive-1.1.1-bin.tar.gz mysql-5.6.16.tar.gz mysql-connector-java-5.6-bin.jar sasl-0.2.1.tar.gz thrift-0.10

原创 HBase 安裝

1. 軟件列表    hadoop 2.6.0 、 zookeeper 3.4.6和hbase 1.2.0 2. 機器環境 序號 主機名 IP 安裝軟件 1 d-hdp-client 192.1.131.199 hadoop hbase

原创 matplotlib繪圖基礎

記錄matplotlib的基本操作學習筆記,需要時可以直接拷貝。 1. 繪製曲線 用numpy的linspace() 函數獲取一組數據x,用numpy的cos和sin函數獲得y值,然後用matplotlib.pyplot畫圖。可以使用rc

原创 Spark streaming 入門實驗

Spark Streaming 是一個基於spark的實時計算框架。詳細說明參考Spark Streaming Programming Guide. 以下是編程指南WordCount例子的在spark-shell了實驗記錄。運行前,把sp

原创 Spark 安裝

1. 軟件列表  hadoop 2.6.0、 zookeeper 3.4.6和habase 1.2.0已安裝好,參見《HBase 安裝配置》。在此基礎上安裝scala-2.10.6和spark-1.6.0-bin-hadoop2.6。 2

原创 Spark MLlib 入門學習筆記 - RDD基礎

RDD(Resilient Distributed Datasets)分佈式彈性數據集,將數據分佈存儲在不同節點的計算機內存中進行存儲和處理。RDD的任務被分成兩部分:Transformation和Action。Transformatio

原创 TensorflowOnSpark 安裝

1. spark 集羣環境  spark的安裝配置參考《Spark 安裝》。本環境是用了6臺工作站,規劃如下: 序號 主機名 IP 用途 1 bdml-c01 192.168.200.170 客戶端 2 bdml-m01 192.168