原创 Phoenix應用及介紹

全局索引,生成一個索引表,存儲在hbase! 適用於多讀少寫場景!在向表寫入數據時,不僅要更新數據,還要更新索引! 索引表有可能分佈在另外一臺RS中,插入數據時,不僅向當前RS寫數據,還需要向索引所在 RS發送更新請求!會帶來額外

原创 IDEA右側窗口顯示MAVEN以及idea快捷鍵

依次點擊File-Settings,然後下圖打上勾就可以了 idea快捷鍵: 查找類:連按兩下shift 查看類中所有的方法:alt+7 查看方法說明:ctrl+q 查看方法參數:ctrl+p 自動修復:alt+Enter 查

原创 JVM分析(基於JDK1.8):類加載過程、堆的新生代與老年代

一、什麼是JVM 1.引言 jvm即Java Virtual Machine(java虛擬機)的簡寫,如果你在面試的時候被面試官問到什麼是JVM時候,你回答這句話,那麼恭喜你,你就GG了,面試官問你JVM時候,作爲一個面試者,至少

原创 Idea配置Remote Host

依次打開tool -> deployment -> Bowser Remote Host 點擊右上角…圖標,如圖所示圖標 在彈出的窗口中,右上角點擊+圖標 在彈出的Add Server窗口中, Name:你要連接的主機名稱 T

原创 Hive以及其架構

Hive 是建立在 Hadoop 之上的,所有 Hive 的數據都是存儲在 HDFS 中的。而數據庫則可以將數據保存在塊設備或者本地文件系統中。 Hive 在查詢數據的時候,由於沒有索引,需要掃描整個表,因此延遲較高。另外一個導致

原创 kafka基礎架構及核心知識

kafka基礎架構及核心知識目錄一、kafka介紹以及說明1.kafka介紹以及名字由來2.kafka數據存儲3.kafka高效的原因4.kafka的特點5.相關單詞二、kafka集羣的安裝與部署三、kafka的核心組成1.Bro

原创 Zookeeper原理及架構深入

一.zookeeper介紹 1.什麼是zookeeper? Zookeeper是一個開源的分佈式的,爲分佈式應用提供協調服務的Apache項目,多用作爲集羣提供服務的中間件!官網也對此做了介紹: zookeeper這個詞語翻譯過

原创 HBase基礎以及架構深入瞭解

HBase基礎以及架構深入瞭解 一.HBase的介紹以及說明 1.HBase介紹 1.1.官方介紹 說明:大約在2003年左右,google發表了三遍論文:GFS,Map-Reduce,BigTable,其中根據GFS實現了HDF

原创 sqoop應用及介紹

Sqoop是一款開源的工具,主要用於在Hadoop(Hive)與傳統的數據庫(mysql、oracle…)之間進行數據的傳遞,可以將一個關係型數據庫(例如 : MySQL ,Oracle ,Postgres等)中的數據導進到Had

原创 Flume原理及架構深入

1.說明:高可用,高可靠,分佈式的海量日誌採集,聚合和傳輸系統,Flume基於流式架構,靈活簡單; 2.flume可監控文件夾日誌以及端口傳輸的數據 3.flume進程名稱:Application

原创 Hadoop(二)hadoop介紹以及MapReduce

Map階段需要繼承Mapper類實現自定義核心邏輯,Reduce階段需要繼承Reducer實現自定義核心邏輯: 1.易於編程 2.高容錯 一臺機器掛了,可以把上面的任務轉義到另外一個節點上運行,不至於這個任務運行失敗 3.適合PB

原创 Azkaban介紹及其使用

Azkaban是一個調度系統

原创 Hive相關調優知識

介紹 首先,我們來看看Hadoop的計算框架特性,在此特性下會衍生哪些問題? 數據量大不是問題,數據傾斜是個問題。 jobs數比較多的作業運行效率相對比較低,比如即使有幾百行的表,如果多次關聯多次彙總,產生十幾個jobs,耗時很長。原因是

原创 Spark自帶求π的算法:蒙特卡洛算法

標題Spark自帶求π的算法:蒙特卡洛算法 ** 1.在我們對spark集羣進行壓力測試時,通常會選擇spark自帶計算π的類來進行測試,那麼spark內部到底是如何求π的呢?我們這裏先上一段測試腳本: ** bin/spark-