原创 spark maven項目加入scala

POM文件 <?xml version="1.0" encoding="UTF-8"?> <project xmlns="http://maven.apache.org/POM/4.0.0" xmlns:xsi="ht

原创 CDH相關大數據文件包下載地址-

下載CDH包地址: http://archive.cloudera.com/cdh5/cdh/5/ kafka下載地址: http://archive.cloudera.com/kafka/kafka/ zookeeper下載地址: ht

原创 es初學

es關鍵詞      索引:含有相同屬性的文檔集合         必須是英文字母小寫,且不含中劃線     類型: 索引可以定義一個或多個類型,文檔必須屬於一個類型     文檔:文檔是可以被索引的基本數據單位,是ES中的最小存儲單位

原创 Spring boot 配置多數據源並使用連接池管理 - mysql - hive

1、搭建springboot項目,項目目錄如下: 2.部分配置源碼如下,不想自己配置的小夥伴可以直接去github下載,github地址:github項目地址: yml配置: spring: datasource: #使用

原创 Storm 整合 Hbase

1.描述         將計算結果寫入到hbase數據庫中。         hbase 高吞吐量         隨機定位         實時讀寫。                2.創建hbase wordcount表,f1   

原创 Sqoop 1.99.7安裝與配置

sqoop:        RDBMS和hdfs之間進行數據的export/import,工具 Sqoop 安裝 1.下載      下載地址:https://mirrors.tuna.tsinghua.edu.cn/apache/sq

原创 CDH 安裝hadoop Datanode啓動失敗

啓動WARN 晚上11點09:05.570分 WARN NativeCodeLoader Unable to load native-hadoop library for your platform… using builtin

原创 ElasticSearch異常ElasticSearch異常 too_long_frame_exc4096 reason:An HTTP line is larger than 4096 bytes

記錄一次ES查詢異常 由於我們項目的數據量比較大,這樣如果把所有的數據都存儲在一個ES索引,在ES數據清理時會有點麻煩,而且效率低下,所以改爲每天一個索引,這樣就有了很多索引。這就造成了我們按區間批量查詢的時候,後傳很多索引名稱,

原创 Spark 廣播變量和計數器

spark廣播變量 將外部變量發送到executor中使用。 注意事項 1、不能,因爲RDD是不存儲數據的。可以將RDD的結果廣播出去。 2、 廣播變量只能在Driver端定義,不能在Executor端定義。 3、 在Driv

原创 Azkaban two-server模式安裝

下載 git地址 git clone命令:git clone https://github.com/azkaban/azkaban.git 編譯 下載完成後,在azkaban目錄下,執行命令: ./gradlew build -x

原创 crontab 配置使用

cron服務   cron是一個linux下 的定時執行工具,可以在無需人工干預的情況下運行作業。   service crond start    //啓動服務   service crond stop     //關閉服務   ser

原创 git 子分支強制覆蓋master分支

1 把本地的 develop 分支強制(-f)推送到遠程 master 但是上面操作,本地的 master 分支還是舊的,通常來說應該在本地做好修改再去 push 到遠端,所以我推薦如下操作 git push origin develo

原创 Nginx 服務器搭建

Nginx 安裝 1.準備服務器:5臺(可改變數目) 2.下載Nginx:nginx-1.17.0.tar.gz(可自由選擇版本) 下載地址:http://nginx.org/en/download.html 3.選擇一臺服務器,解壓Ng

原创 Spark Spark Streaming集成kafka

1.啓動kafka集羣         a.啓動zk                 b.啓動kafka        2.引入pom.xml         <dependency>             <groupId>org.a

原创 Spark 機器學習

機器學習     1.監督學習         有訓練數據集。規範數據。合規數據。產生推斷函數.然後對新數據應用函數。         director actor edit         Label     2.非監督學習