原创 【CDH6.1 spark-shell啓動報錯】Cluster deploy mode is not applicable to Spark shells

【CDH6.1 spark-shell啓動報錯】Cluster deploy mode is not applicable to Spark shells前言報錯信息:解決方案 前言 在正常的CDH6.1後臺運行spark-she

原创 【kettle集成cdh6.1】hadoop file output瀏覽目錄報錯:java.lang.NoClassDefFoundError: com/ctc/wstx/io/SystemId

【kettle集成cdh6.1】外部數據源讀寫hdfs若干錯前言環境報錯問題分析解決辦法後記 前言 最近試着上手了一下kettle,搭建過程很簡單,就是下載個包解壓一下,但是在配置數據源的過程中着實踩了不少坑,這裏記錄一下。 環境

原创 【gitlab+jenkins+docker】第三節 docker版jenkins安裝和配置

【gitlab+jenkins+docker】手把手教你搭建基於gitlab+jenkins+docker的項目的自動化部署流程前言路徑創建封裝docker啓動命令創建啓動配置文件啓動頁面配置安裝Maven插件憑據配置配置全局工具

原创 【gitlab+jenkins+docker】第四節 docker版mysql安裝和配置

【gitlab+jenkins+docker】手把手教你搭建基於gitlab+jenkins+docker的項目的自動化部署流程前言路徑創建封裝docker啓動命令創建啓動配置文件啓動後記跳轉 前言 使用現成的docker容器能夠

原创 【Spring boot配置模板】java遠程執行shell命令(支持向多主機發起遠程命令)

【Spring boot配置模板】java遠程執行shell命令(支持向多主機發起遠程命令)前言pom依賴支持配置yml建類調用後記 前言 受2020年初的新型肺炎病毒影響,多日宅在家中無聊至極,就在琢磨一套調度系統,想用來管理維

原创 【Centos7.6安裝CDH6.1.0】第二節 JDK、Mysql配置

【Centos7.6安裝CDH6.1.0】手把手教你搭建CDH6.1.0JDK(已安裝者跳過)mysql配置安裝jdbc建庫、建用戶、設置用戶訪問權限跳轉 JDK(已安裝者跳過) 下載linux適用版jdk https://www

原创 【DOCKER+FDFS上傳圖片ERROR】無法獲取服務端連接資源:can't create connection to/10.111.114.6:23000] with root cause.

【Spring Boot集成DOCKER+FDFS上傳圖片ERROR】無法獲取服務端連接資源:can't create connection to/10.111.114.6:23000] with root cause.前言容器創

原创 【大數據入門筆記系列】第三節 Hdfs讀、寫數據處理流程

【大數據入門筆記系列】第三節 Hdfs讀、寫數據處理流程Hdfs簡介寫數據處理流程讀數據處理流程後記跳轉 Hdfs簡介 一般而言,Hdfs是由一個NameNode節點和若干個DataNode節點組成(非高可用,高可用還有一個Se

原创 【gitlab+jenkins+docker】第二節 docker版gitlab安裝和配置

【gitlab+jenkins+docker】手把手教你搭建基於gitlab+jenkins+docker的項目的自動化部署流程前言路徑創建封裝docker啓動命令創建啓動配置文件啓動頁面配置上傳代碼後記跳轉 前言 使用現成的do

原创 【Spark2運算效率】第五節 影響生產集羣運算效率的原因之小文件

【Spark2運算效率】【Spark2運算效率】第五節 影響生產集羣運算效率的原因之小文件前言問題概述案例結語跳轉 前言 關於小文件的治理方案頗多,可以迴歸到hdfs底層的block層面看待治理問題。,首先可以通過查詢命令(had

原创 【小工具】hdfs balance腳本(均衡操作)

hdfs balance腳本(均衡操作)前言shell源碼執行語句執行結果效果 前言 集羣增加新節點後,hdfs 節點和disk之間的數據分配十分不均勻,需要進行均衡操作,這裏寫了一個簡單的balance操作腳本 shell源碼

原创 Centos7.6 VMware擴展磁盤空間

Centos7.6 VMware擴展磁盤空間前言擴容過程後記 前言 受2020年初的新型肺炎病毒影響,多日宅在家中無聊至極,昨天找了臺舊筆記本(8G運行內存,256G磁盤空間)搭建CDH6.1,找到以前保存的三臺虛擬機文件以及一塊

原创 【Spark2運算效率】第四節 影響生產集羣運算效率的原因之數據傾斜

【Spark2運算效率】【Spark2運算效率】第四節 影響生產集羣運算效率的原因之數據傾斜前言傾斜實例治理過程結語跳轉 前言 當ETL調度任務所能擁有的資源能夠滿足其在較爲資源冗餘的狀況下實施運算,長時間的運算過程中可能是涉及了

原创 【ketlle】本地開發kitlle job提交至linux生產環境上執行流程

【ketlle】本地開發kitlle job提交至linux生產環境上執行前言操作步驟後記 前言 因爲kettle提供可視化界面,所以我們在本地開發的時候拖拽開發十分便捷,開發完成後,我們需要丟到測試或者生產環境中運行一下,這裏介

原创 【gitlab+jenkins+docker】第五節 docker信息明細表設計與實現(含收集腳本)

【gitlab+jenkins+docker】手把手教你搭建基於gitlab+jenkins+docker的項目的自動化部署流程前言SQL語句佈置腳本信息收集後記跳轉 前言 在上一節交代,之所以需要維護一張docker容器信息表,