原创 Cloudera Manager離線部署CDH文檔 詳解

Cloudera Manager離線部署CDH文檔   目錄: Cloudera Manager離線部署CDH文檔 1 目錄: 1 一、說明 2 二、系統環境搭建 3 1、網絡配置(所有節點) 3 2、SSH免密碼登錄 3 3、關閉防火牆

原创 Kafka丟失數據問題優化總結

  數據丟失是一件非常嚴重的事情事,針對數據丟失的問題我們需要有明確的思路來確定問題所在,針對這段時間的總結,我個人面對kafka 數據丟失問題的解決思路如下: 是否真正的存在數據丟失問題,比如有很多時候可能是其他同事操作了測試環境,所

原创 解決安裝MySQL時登錄錯誤--error: 'Access denied for user 'root'@'localhost' (using password: YES)'

在使用Linux安裝MySQL登錄時報 :    mysqladmin: connect to server at 'localhost' failed   error: 'Access denied for user 'root'@'l

原创 Linux下顯示類似-bash-4.1# 不顯示路徑的解決辦法

Linux下顯示類似-bash-4.1# 不顯示路徑的解決辦法解決辦法:    >   打開環境變量 :           vim ~/.bash_profile    >    修改環境變量 添加以下參數:           exp

原创 hive 處理 json數據

兩種方式 1、將json以字符串的方式整個入Hive表,然後通過使用UDF函數解析已經導入到hive中的數據,比如使用LATERAL VIEW json_tuple的方法,獲取所需要的列名。 2、在導入之前將json拆成各個字段,導入Hi

原创 基於CentOs6的Docker1.7版本部署CDH5.13.0

基於CentOs6的Docker1.7版本部署CDH5.13.0   此文檔爲docker及相關係統環境準備部署安裝配置   目錄 一、說明 1 二、Docker環境搭建 2 1、docker安裝 2 2、 docker鏡像加速 2 3、

原创 kafka基本原理介紹,以及重新選舉,replica複製機制,isr等

最近做的項目,通過數據庫的log日誌將數據庫某些千萬量級的表(這些表需要聯表查詢)數據同步到elasticsearch中,以減輕數據庫的查詢壓力,其中以kafka作爲消息中間件,以下是做該項目過程中對kafka的一些整理。 一、中間件 中

原创 Spark RDD算子整理 -- 轉換算子 行動算子

轉換算子操作: filter 過濾符合條件的記錄數,true保留,false過濾掉。 map 將一個RDD中的每個數據項,通過map中的函數映射變爲一個新的元素。 特點:輸入一條,輸出一條數據。 flatMap 先map後flat。與ma

原创 那些驚豔的算法們(一)—— 布隆過濾器

那些驚豔的算法們(一)——布隆過濾器 歡迎轉載 https://blog.csdn.net/xinzhongtianxia/article/details/81294922 問題 假設你現在要處理這樣一個問題,你有一個網站並且擁有很多訪客

原创 Hive性能優化(全面)

Hive性能優化(全面) 1.介紹 首先,我們來看看Hadoop的計算框架特性,在此特性下會衍生哪些問題? 數據量大不是問題,數據傾斜是個問題。 Jobs數比較多的作業運行效率相對比較低,比如即使有幾百行的表,如果多次關聯多次彙總,產生十

原创 Elasticsearch中文社區201901錯題本

1、kibana根據歷史數據預測未來數據 Elastic 的機器學習功能剛好就能做 https://www.elastic.co/products/stack/machine-learning 2、es查詢問題。 另外你要注意一下 Luc

原创 對HBase集羣做跨集羣數據遷移

概述 DistCp(分佈式拷貝)是用於大規模集羣內部和集羣之間拷貝的工具。 它使用Map/Reduce實現文件分發,錯誤處理和恢復,以及報告生成。 它把文件和目錄的列表作爲map任務的輸入,每個任務會完成源列表中部分文件的拷貝。 由於使用

原创 HBase優化 | HBase寫吞吐場景資源消耗量化分析及優化

目錄 1概述 1 2 HBase 寫鏈路簡要分析 2 3 Flush&Compaction 2 4系統開銷定量分析 3 4.1 系統變量 4 4.2 磁盤容量開銷量化分析 5 4.3 網絡開銷量化分析 6 5總結 13 6參考文獻 13

原创 LSM樹(Log-Structured Merge Tree)存儲引擎

LSM樹(Log-Structured Merge Tree)存儲引擎 LSM樹(Log-Structured Merge Tree)存儲引擎 代表數據庫:nessDB、leveldb、hbase等 核心思想的核心就是放棄部分讀能力,換取

原创 Hive常用函數大全

文章目錄 1 關係運算 1.1 1、等值比較: = 1.2 2、不等值比較: 1.3 3、小於比較: < 1.4 4、小於等於比較: <= 1.5 5、大於比較: > 1.6 6、大於等於比較: >= 1.7 7、空值判斷: IS NUL