原创 hdfs數據塊丟失處理

查看修復HDFS中丟失的塊 檢測缺失塊 1 hdfs fsck -list-corruptfileblocks 1 hdfs fsck / | egrep -v '^\.+$' | grep -v eplica 查看上面某一個文件的情

原创 jdk常用併發包

一、Fork/Join Java7提供了Fork/Join用於並行執行任務的框架, 可以把一個大任務分割成若干個小任務,最終彙總每個小任務結果後得到大任務結果的框架。 如果一個應用能被分解成多個子任務,並且組合多個子任務的結果就能夠獲得

原创 hdfs的acl權限控制

ACL(Access Control Lists ,訪問控制列表),Hadoop中的acl與unix中的acl機制(posix模型)基本相同,可以爲文件或目錄提供更精細化的權限訪問控制。 對於每個文件或目錄而言,權限管理分爲3個不同的用戶

原创 spring-boot中使用log4j

spring boot 默認是使用logback來進行日誌記錄的,但是好多時候,還是喜歡使用log4j,好在,spring boot 支持的~~ 首先pom依賴 01 <project xmlns="http

原创 sqoop從hbase導出數據到mysql

目前sqoop沒有辦法把數據直接從Hbase導出到mysql。必須要通過Hive建立2個表,一個外部表是基於這個Hbase表的,另一個是單純的基於hdfs的hive原生表,然後把外部表的數據導入到原生表(臨時),然後通過hive將臨時

原创 海量數據處理算法—Bloom Filter

Bloom-Filter算法簡介         Bloom-Filter,即布隆過濾器,1970年由Bloom中提出。它可以用於檢索一個元素是否在一個集合中。        Bloom Filter(BF)是一種空間效率很高的隨機數

原创 hbase學習筆記

版權聲明:本文爲博主原創文章,未經博主允許不得轉載。 文章實例下載文件:http://download.csdn.net/detail/ruishenh/9551930 原文地址:http://blog.csdn.

原创 HashMap原理

 1、HashMap概述:    HashMap是基於哈希表的Map接口的非同步實現。此實現提供所有可選的映射操作,並允許使用null值和null鍵。此類不保證映射的順序,特別是它不保證該順序恆久不變。   2.    HashM

原创 apache dbutils介紹

一、commons-dbutils簡介    commons-dbutils 是 Apache 組織提供的一個開源 JDBC工具類庫,它是對JDBC的簡單封裝,學習成本極低,並且使用dbutils能極大簡化jdbc編碼的工作量,同

原创 storm重要點理解

問題導讀 1.Storm拓撲包含哪些基本元素? 2.如何描述單詞計數拓撲數據流? 3.典型的Bolt執行哪些功能? 4.什麼是Storm流分組? 本章,主要介紹使用storm開發分佈式流處理應用的基本概念。我們將構建一個統計

原创 mapreduce多目錄輸出(MultipleOutputFormat和MultipleOutputs)

一,介紹 1,舊API中有 org.apache.hadoop.mapred.lib.MultipleOutputFormat和org.apache.hadoop.mapred.lib.MultipleOutputs Multipl

原创 storm滑動時間窗口實現

storm是一個流式處理框架,可以做到Spout產生一條數據,Bolt處理一條以達到實時計算。 這種模式並不是實際的業務需要的,我們更多是需要 最近5分鐘的PV  UV ,最近10分鐘的網絡最大延遲,最近5分鐘頁面訪問TOP10

原创 java socket編程

對於Java Socket編程而言,有兩個概念,一個是ServerSocket,一個是Socket。服務端和客戶端之間通過Socket建立連接,之後它們就可以進行通信了。首先ServerSocket將在服務端監聽某個端口,當發現客戶端有S

原创 hadoop中mr處理大量小文件

HDFS本身被設計來存儲大文件,但是有時難免會有小文件出現,有時很可能時大量的小文件。通過MapReduce處理大量小文件時會遇到些問題。 MapReduce程序會將輸入的文件進行分片(Split),每個分片對應一個map任務,而默認

原创 mapreduce操作hbase

目錄(?)[+] 概述: Hbase對Mapreduce API進行了擴展,方便Mapreduce任務讀寫HTable數據。 一個簡單示例: 說明:從日誌表中,統計每個IP訪問網站目錄的總數 [