原创 IPProxyPool部署

依賴:python 2.7 mkdir /home/hadoop/crawler 一、安裝python 2.7.2 wget https://www

原创 單表關聯查詢MR

轉自:http://www.linuxidc.com/Linux/2015-03/114669p6.htm 1、 輸入數據分析 輸入文件數據示例: child parent Tom Jack Jack Alice Jack Jess

原创 QJM實現機制

轉自:http://www.cnblogs.com/charlist/p/7122237.html 前言 1.1背景     自從hadoop2版本開始,社區引入了NameNode高可用方案。NameNode主從節點間需要同步操作

原创 hbase regionserver異常退出

2017-09-23 09:20:54,223 WARN [JvmPauseMonitor] util.JvmPauseMonitor: Detected pause in JVM or host machine (eg GC): pa

原创 hadoop卸載及擴容

------------------------------------------------------------------------------卸載---------------------------------------

原创 spark 開啓歷史日誌監控

vi spark-defaults.conf spark.eventLog.enabled  true spark.eventLog.dir    

原创 Elasticsearch Recovery詳解

轉自: http://blog.csdn.net/u012450329/article/details/52881045 Elasticsearch Recovery詳解 基礎知識點 在Eleasticsearch中

原创 reduce/map/semi join

轉自:http://database.51cto.com/art/201410/454277.htm 一、概述 對於RDBMS中的join操作大夥一定非常熟悉,寫sql的時候要十分注意細節,稍有差池就會耗時巨久造成很大的性能瓶頸,而在H

原创 namenode異常退出分析

namenode異常退出日誌: 2017-09-14 02:38:07,147 INFO org.apache.hadoop.hdfs.server.namenode.FSNamesystem: Stopping services sta

原创 hive服務

hiveserver/hiveserver2比較 之前一直不明白,有了hiveserver,爲什麼還要有hiveserver2? 看了下段,終於明白: hiveserver和hiveserver2雖然都基於thrift,允許客戶端使用多語

原创 未解之謎

1、spark thriftserver運行一段時間後,執行SQL報以下錯誤:Error: java.io.IOException: Failed to create local dir in /tmp/blockmgr-0937276e

原创 rsync部署及使用

一、服務端配置 vi /etc/rsyncd.conf  uid = root                         gid = root

原创 Maven私服(Nexus)部署

一.        概述 Nexus是一個maven私服,主要解決的問題有: 1.      由於國內的網絡環境比較惡劣,從maven中央倉庫下載依賴庫比較慢,因此架設nexus私服從內網獲取,大大提高下載速度。 2.      多個不同

原创 linux下測試磁盤的讀寫IO速度

轉自:http://blog.chinaunix.net/uid-24250828-id-3239100.html 有時候我們在做維護的時候,總會遇到類似於IO特別高,但不能判定是IO瓶頸還是軟件參數設置不當導致熱盤的問題.這時候通

原创 虛擬機上面的LINUX 無法和宿主WIN上面的時間同步問題

轉自:http://blog.csdn.net/u011569202/article/details/46137543 服務器在虛擬機上運行多時,總是發現時間會不正常,調整好了,運行幾日,會出現日期時間不正確的情況,正常時間1分鐘,BSD