原创 3.sparkSQL整合Hive

  spark SQL經常需要訪問Hive metastore,Spark SQL可以通過Hive metastore獲取Hive表的元數據。從Spark 1.4.0開始,Spark SQL只需簡單的配置,就支持各版本Hive metast

原创 (代碼篇)從基礎文件IO說起虛擬內存,內存文件映射,零拷貝

上一篇講解了基礎文件IO的理論發展,這裏結合java看看各項理論的具體實現。 傳統IO-intsmaze 傳統文件IO操作的基礎代碼如下: FileInputStream in = new FileInputStream("D:\\jav

原创 storm自定義分組與Hbase預分區結合節省內存消耗

Hbas預分區   在系統中向hbase中插入數據時,常常通過設置region的預分區來防止大數據量插入的熱點問題,提高數據插入的效率,同時可以減少當數據猛增時由於Region split帶來的資源消耗。大量的預分區數量會導致hbase客戶

原创 如何遍歷文件夾下上億文件而不棧溢出

序:一個文件夾下面有很多層的小文件,如何算出這個文件夾下面有多少文件?遞歸遍歷,簡單暴力,遞歸在一般情況確實是比較方便的解決方案,但是當文件夾深度多深,遞歸的反覆調用會導致方法一直無法釋放,造成jvm的棧溢出。那我們該怎麼辦? 原文和作者一

原创 javaOOM該分析dump文件而不是看異常log日誌原因

目錄 OOM異常--intsmaze 正確姿勢dump文件分析--intsmaze 正確的姿勢--intsmaze dump丟失打印--intsmaze 哪些內存溢出會產生dump文件--intsmaze 應用程序出現OOM異常,你是否

原创 redis主從,哨兵回憶手冊

 redis主從   持久化的開啓與主從集羣是否生效無關係   Slave Server同樣是以非阻塞的方式完成數據同步。在同步期間,如果有客戶端提交查詢請求,Redis則返回同步之前的數據(注意初次同步則會阻塞)。 Replicatio

原创 IT諮詢顧問:group by與join引發的項目救火

我又一次進行了項目救火,這次的原因是group by與join胡亂的堆徹導致的整個業務系統審覈流程發生嚴重的錯誤。基礎的sql表關聯,group by,子表都理不清。  很簡單的一對多表關聯 用戶表,customerId代表用戶的唯一id,

原创 IT諮詢顧問:一次吐血的項目救火

  年後的一個合作公司上線了一個子業務系統,對接公司內部的單點系統。我收到該公司的技術諮詢:項目啓動後沒有規律的突然無法登錄了,重新啓動後,登錄一斷時間後又無法重新登錄,對方技術人員一頭霧水不知道什麼原因,後臺日誌沒有任何錯誤信息。我臨危受

原创 (理論篇)從基礎文件IO說起虛擬內存,內存文件映射,零拷貝

  爲了快速構建項目,使用高性能框架是我的職責,但若不去深究底層的細節會讓我失去對技術的熱愛。  探究的過程是痛苦並激動的,痛苦在於完全理解甚至要十天半月甚至沒有機會去應用,激動在於技術的相同性,新的框架不再是我焦慮。  每一個底層細節的攻

原创 jdbc操作根據bean類自動組裝sql,天啦,我感覺我實現了hibernate

場景:需要將從ODPS數倉中計算得到的大額可疑交易信息導入到業務系統的mysql中供業務系統審覈。最簡單的方式是用阿里雲的組件自動進行數據同步了。但是本系統是開放是爲了產品化,要保證不同環境的可移植性,同時同步的表也就6個表,那麼就利用現有

原创 MapReduce中map並行度優化及源碼分析

mapTask並行度的決定機制   一個job的map階段並行度由客戶端在提交job時決定,而客戶端對map階段並行度的規劃的基本邏輯爲:將待處理數據執行邏輯切片(即按照一個特定切片大小,將待處理數據劃分成邏輯上的多個split),然後每一

原创 java使用Map做緩存你真的用對了嗎?弱引用WeakHashMap瞭解一下

目錄 關於緩存我們應該考慮什麼?-intsmaze WeakHashMap弱引用-intsmaze 線程安全問題-intsmaze Collections-intsmaze ThreadLocal-intsmaze 序:使用java