原创 java.net.SocketException四大異常解決方案

java.net.SocketException如何才能更好的使用呢?這個就需要我們先要了解有關這個語言的相關問題。希望大家有所幫助。那麼我們就來看看有關java.net.SocketException的相關知識。 第1個異常是 ja

原创 hive on spark部署

本文檔相關軟件的版本:spark-1.0.2、hadoop2.4.0和hive-0.13.0 一、編譯打包 1、準備        將 hadoop gateway所使用的 hadoop 相關配置文件(*-site.xml)放到 spar

原创 通過 ulimit 改善系統性能

概述 系統性能一直是一個受關注的話題,如何通過最簡單的設置來實現最有效的性能調優,如何在有限資源的條件下保證程序的運作,ulimit 是我們在處理這些問題時,經常使用的一種簡單手段。ulimit 是一種 linux 系統的內鍵功能,它

原创 Yarn簡單介紹及內存配置

在這篇博客中,主要介紹了Yarn對MRv1的改進,以及Yarn簡單的內存配置和Yarn的資源抽象container。我麼知道MRv1存在的主要問題是:在運行時,JobTracker既負責資源管理又負責任務調度,這導致了它的擴展性、資源利用

原创 Presto:Facebook的分佈式SQL查詢引擎

背景 Facebook是一家數據驅動的公司。 數據處理和分析是Facebook爲10億多活躍用戶開發和交付產品的核心所在。 我門擁有世界上最大的數據倉庫之一,存儲了大約 300PB 以上的數據。 這些數據被一系列不同種類的程序所使用,

原创 Prestodb概述及性能測試

概述內容 (1)簡介 (2)Hive and Prestodb, comparison of functionality (3)Hive and Prestodb, comparison of performance   (1

原创 hadoop2.0的datanode多目錄數據副本存放策略

在hadoop2.0中,datanode數據副本存放磁盤選擇策略有兩種方式: 第一種是沿用hadoop1.0的磁盤目錄輪詢方式,實現類:RoundRobinVolumeChoosingPolicy.java 第二種是選擇可用空間足夠多的磁

原创 distcp導致個別datanode節點數據存儲嚴重不均衡分析

        hadoop2.4生產集羣已經運行一段時間了。由於大量的hadoop1.0上面的應用不斷遷移過來,剛開始事hdfs這邊還沒有出現多少問題,隨着時間的推移,最近發現個別的datanode節點上面的磁盤空間剩餘嚴重不足,既集羣

原创 yarn狀態機可視化

YARN中實現了多個狀態機對象,包括ResourceManager中的RMAppImpl、RMApp-AttemptImpl、RMContainerImpl和RMNodeImpl,NodeManager中的ApplicationImpl、

原创 java進程調用外部程序時fork()+exec()分析

java進程調用一個外部程序,一般使用Runtime.getRuntime().exec(cmd)的方式啓動。 以下是Runtime.getRuntime().exec(cmd) 的執行流程分析 分析SUN JDK 1.5 SRC,

原创 授權指定用戶 從任何機器可訪問 mysql服務器

 mysql -h${host} -u${username} -p${password} mysql> GRANT ALL PRIVILEGES ON hive.* TO 'hive'@'%' IDENTIFIED BY '密碼' W

原创 Linux shell腳本中調用另一個shell(exec、source、fork)

        最近在研究yarn的源代碼,在看到YarnChild的啓動腳本時,看到啓動的時候用到了shell中得exec命令,比較好奇爲什麼使用exec,網上找了一下這個命令和類似命令的使用方法,原文地址:http://quju

原创 hive使用python腳本導致java.io.IOException: Broken pipe異常退出

       反垃圾rd那邊有一個hql,在執行過程中出現錯誤退出,報java.io.IOException: Broken pipe異常,hql中使用到了python腳本,hql和python腳本近期沒有人改過,在10.1號時還運行正常

原创 廣告作業單行1000萬數據量處理超時分析

以下是分析ads的單行數據量超過1000萬時,map任務出現600s time out的問題: 1、map函數調用cpu消耗profile 以下是map函數調用cpu消耗profile圖: 以上是用戶代碼函數調用cpu使用總的

原创 Mac 系統不同jdk版本切換方法

#確認jdk版本 /usr/libexec/java_home #會得到下面信息(不同版本顯示不一樣) /Library/Java/JavaVirtualMachines/jdk1.7.0_60.jdk/Contents/Home