原创 大數據平臺學習之路(4)編譯hue並使用

1、背景 上篇博客已經記錄了安裝hive,編譯spark的過程,但是spark-sql shell或者hive shell編寫sql來並不是很方便,所以這篇博客介紹hue,編譯hue並使用。 2、HUE簡介 github地址 https:

原创 使用Datagrip連接spark-thriftserver使用sparksql

使用Datagrip連接spark-thriftserver 因爲在編譯spark時使用含有hive的編譯以支持sparksql on hive ,所以在Datagrip連接spark-thriftserver時就不能使用hive的連接驅

原创 大數據平臺學習之路(3)安裝hive-2.3.4編譯spark-2.3.3

1、背景 上一篇博客中已經安裝了 hadoop並配置了免密登錄,這篇博客記錄安裝hive和編譯spark的過程。 2、準備文件 ubuntu 16.04  http://releases.ubuntu.com/16.04/ubuntu-1

原创 大數據平臺學習之路(2)搭建hadoop平臺

1、背景 上篇博客已經講述瞭如何去安裝ubuntu 16.04 系統並安裝了java,ssh,vim 其中JAVA_HOME=/usr/lib/jvm/java-8-openjdk-amd64 本篇博客主要關於如何搭建hadoop平臺(h

原创 大數據平臺學習之路(1)VM安裝ubuntu 16.04 系統

1、安裝linux系統(Ubuntu 16.04 LTS) 剛開始建議使用桌面版,熟悉之後推薦使用服務器版 系統 Ubuntu 16.04 desktop  下載地址http://releases.ubuntu.com/16.04/ubu

原创 在HUE平臺實現hive on spark 和sparksql 功能並存(hadoop-3.1.2+hive-3.1.1+spark-2.3.3+hue-4.3.0)

背景 我先說明一下我之前的情況,我先實現了hive on spark的功能,並在本地虛擬機中實現hive on spark 計算(三臺虛擬機(5G+3G+4G)5G和4G的虛擬機是放在nvme固態硬盤上的(500G 讀3500m寫2500

原创 大數據平臺學習之路(0)背景

背景介紹 作者目前是一個大四學生,對電腦和系統軟件很癡迷,也經常去幫同學老師解決一些力所能及的問題。在大三的時候參與助研,受到老師啓發並對hadoop生態系統具有強烈的興趣,然後就一直利用課餘時間和畢設時間搭建hadoop平臺。 目前開設

原创 pyspark缺少zlib依賴解決方法(python3.6.5,zlib1.2.11)

因爲缺少zlib,需要先去下安裝載這個包,我的版本是1.2.11,地址爲http://www.zlib.net/zlib-1.2.11.tar.gz安裝zlib:tar xzvf zlib-1.2.11.tar.gz cd zlib-1.

原创 KNN算法學習筆記

《機器學習實戰》 KNN算法學習筆記 KNN算法優缺點: 優點:精度高,對異常值不敏感、無數據輸入假定 缺點:計算複雜度高,空間複雜度高 適用數據範圍:數值型和標稱型 KNN算法僞代碼: 對未知類別屬性的數據集中的每個點依次執行以下操作:

原创 在windows環境下安裝linux虛擬機(windows10、Oracle VM VirtualBox)

注:需要先打開電腦的虛擬化模式,每個品牌的電腦bios設置都不同,自行百度設置.1.連接到https://www.virtualbox.org/wiki/Downloads.2.    運行安裝程序(因爲我已經安裝好了,此處省略)3.