原创 Spark MLlib - Iris(鳶尾花卉)數據集 LogisticRegression(邏輯迴歸)

所用數據:http://download.csdn.net/download/dr_guo/9946656 環境版本:Spark 1.6.1; Scala 2.10.4; JDK 1.7 詳見註釋 package com.beagled

原创 Mahout K-Means輸出結果解析

怎麼使用Mahout做聚類有空我會專門寫的,這篇博客主要爲了講一下Mahout處理的結果。 Mahout版本爲0.9,數據沒做歸一化、標準化,只是爲了測試。 輸出目錄下有clusteredPoints、cluster-x、cluster

原创 使用Keras實現多層前饋神經網絡對Iris(鳶尾花卉)數據集進行多分類

Keras優點多多,搭建模型快實現簡單,不過建議瞭解神經網絡基本原理後再用。 backend建議用TensorFlow,比Theano快很多。 from sklearn.datasets import load_iris from

原创 Ambari安裝freeIPA

環境:Ambari-2.4.2、HDP-2.5.3、CentOS 6.5 freeIPA包含了Kerberos、ldap等服務,經調研感覺可以用它來做認證和統一用戶管理,用戶都存在freeIPA的ldap中。 1.裝一臺DNS htt

原创 使用DataX將Hive與MySQL中的表互導

一、DataX簡介(摘自https://github.com/alibaba/DataX) DataX Features DataX詳細介紹 Quick Start Support Data Channels 二、開始正文 2.1

原创 使用Ambari給HDP集羣安裝Kerberos

環境:Amabri 2.2.2、HDP 2.4.2、CentOS 6.5 以下沒有特殊說明的操作都是在ws1es機器上進行的: 1.在集羣中找臺機器安裝KDC #這臺機器自帶了kerberos client的兩個包,需要先升級再安裝

原创 Spark MLlib RandomForest(隨機森林)建模與預測

我要做的是發現異常用戶,而我們之前沒有已經打上異常不異常標籤的樣本,所以對原始數據進行清洗、特徵工程、降維後用Mahout/R做的聚類, 打上了標籤,本來打算繼續用Mahout/R做分類,Mahout太慢,而用R實現KNN、RandomF

原创 使用Python實現日曆功能

先貼一下運行效果 很簡單的小例子,詳見註釋 def is_leap_year(year): """ 判斷閏年 :param year: :return: """ return year %

原创 Spark 分層抽樣與求最大值最小值

詳見註釋 package com.beagledata.spark import org.apache.spark.{SparkConf, SparkContext} /** * 分層抽樣 * * Created by

原创 Flume+Kakfa+Spark Streaming整合(運行WordCount小例子)

環境版本:Scala 2.10.5; Spark 1.6.0; Kafka 0.10.0.1; Flume 1.6.0 Flume/Kafka的安裝配置請看我之前的博客: http://blog.csdn.net/dr_guo/arti

原创 使用python獲取pdf上的文字(in win10)

環境版本: WIN10 | Python 3.6 | ImageMagick-6.9.9-38-Q8-x64-dll | Ghostscript 9.22 for Windows 整體思路:1.將PDF轉爲圖片後進行文字識別

原创 用R語言對高維數據進行降維聚類展示

1.爲什麼要降維 *維數災難:在給定精度下,準確地對某些變量的函數進行估計,所需樣本量會隨着樣本維數的增加而呈指數形式增長。 *降維的意義:克服維數災難,獲取本質特徵,節省存儲空間,去除無用噪聲,實現數據可視化 2.強烈推薦幾篇博客