原创 zookeeper -- 重點知識

1. ls 與 ls2 區別 ls2 = ls + get 2. zk 四字命令 3. zk 中 CountDownLatch使用 4. zk節點的版本號,如果不知道怎麼版本號:就寫 -1

原创 Spark抽取轉換182個用戶的軌跡數據到ES,Kibana展示

GeoLife GPS Trajectories 該GPS軌跡數據集出自微軟研究GeoLift項目。從2007年四月到2012年八月收集了182個用戶的軌跡數據。這些數據包含了一系列以時間爲序的點,每一個點包含經緯度、海拔等信息。

原创 CDH安裝過程中遇到的問題

hostname 阿里雲新機器的機器名是一個實例的名字,對於用戶來說這個名字是很不友好的,需要根據用途重新定義機器名 在hadoop001機器上執行 hostnamectl set-hostname hadoop001 在hado

原创 數據結構 -- 圖的聯通分量(scala版)

連通分量 無向圖G的極大連通子圖稱爲G的連通分量( Connected Component)。任何連通圖的連通分量只有一個,即是其自身,非連通的無向圖有多個連通分量。如下,圖中有兩個連通分量。 圖算法中功能 1).獲得圖中連通

原创 數據結構 -- 圖的基本表示:鄰接表(scala版)

圖 圖是一種複雜的非線性結構。圖G由兩個集合V(頂點Vertex)和E(邊Edge)組成,定義爲G=(V,E) 底層存儲結構 存儲結構有兩種方式: 鏈表存儲:如上圖 二叉樹存儲:hash表、紅黑樹實現(如下圖),hash表查詢

原创 shell -- 使用案例

1.將當前目錄下所有的.plt文件,移動到…/data目錄中 #!/bin/bash find . \( -name "*.plt" \)|while read path do mv $path '../data' do

原创 運維 -- CDH5.16.1集羣企業真正離線部署

1. 準備安裝包 CM cloudera-manager-centos7-cm5.16.1_x86_64.tar.gz Parcel CDH-5.16.1-1.cdh5.16.1.p0.3-el7.parcel CDH-5.16.

原创 數據結構 -- 圖的深度優先遍歷(scala版)

圖的深度優先遍歷 圖的深度優先遍歷是圖算法中基礎算法,一些高級的算法都是這個算法的變種。 深度優先遍歷的主要思想:首先以一個未被訪問過的頂點作爲起始點v,依次從未訪問的鄰接點出發對圖進行遍歷,直到圖中和v相連的頂點都被訪問到,若圖

原创 sparkCore 知識點

1. RDD 五大特性 A list of partitions A function for computing each split A list of dependencies on other RDDs Optional

原创 Spark History Server配置及其啓動

Spark每提交一次任務就會啓動一個web服務,可以在網頁中查看任務執行的DAG圖,執行花費時間…,隨着任務結束而關閉。對於歷史任務查看需要另外啓動Spark History服務。 (1) 修改spark-defaults.con

原创 運維 -- 在阿里雲搭建hadoop集羣,如何在購買和選擇服務器

1. 點擊創建實例 2. 選擇服務器 1). 計費方式 : 包年包月:費用過高,對於個人使用不推薦 按量付費:用多少付多少錢,用完就摧毀,個人推薦這種 2). 地域選擇: 選擇離自己最近的地域,或者選擇一個相對便宜的地域,如

原创 CDH 6.3.1安裝

一、準備工作 1 安裝lrzsz [root@hadoop001 ~]# yum -y install lrzsz [root@hadoop002 ~]# yum -y install lrzsz [root@hadoop003

原创 mysql 常見命令

1. 查看binlog 模式 show variables like ‘%binlog%’; | binlog_format | ROW | m

原创 vim中常見使用命令

1 行號 set number 點贊 收藏 分享 文章舉報 遊九河 發佈了116 篇原創文章 · 獲贊 8 · 訪問量 1萬+ 私信

原创 常用查看機器配置的命令

一、查看內存 1.1 free [root@localhost mysql]# free -h total used free shared buff/cache