原创 語音、圖像和視頻數據的格式

 今天,計算機多媒體技術的應用越來越廣泛。多媒體技術的核心就是使用計算機綜合處理聲、文、圖、像等多媒體信息。數據壓縮是指在不丟失有用信息的前提下,縮減數據量以減少存儲空間,提高其傳輸、存儲和處理效率,或按照一定的算法對數據進行重新組

原创 Hadoop的MapReduce階段爲什麼要進行排序呢,這樣的排序對後續操作有什麼好處麼?

Mapreduce排序:1、MapReduce中排序發生在哪幾個階段??這些排序是否可以避免,爲什麼?? 答:一個MapReduce作業由Map階段和Reduce階段兩部分組成,這兩階段會對數據排序,從這個意義上說,MapReduc

原创 shuffle工作原理

定義 shuffle:針對多個map任務的輸出按照不同的分區(Partition)通過網絡複製到不同的reduce任務節點上的過程。相應上圖中紅色框所圈的內容。 由圖可見Shuffle過程橫跨了map,reduce兩端,所以爲了

原创 Hadoop MapReduce Job性能調優——Map和Reduce個數

 map task的數量即mapred.map.tasks的參數值,用戶不能直接設置這個參數。Input Split的大小,決定了一個Job擁有多少個map。默認input split的大小是64M(與dfs.block.size的默

原创 MapReduce排序

  之前在工作中使用到過MapReduce的排序,當時對於這個平臺的理解還比較淺顯,選擇的是一個最爲簡單的方式,就是隻用一個Recude來做。因爲Map之後到Reduce階段,爲了Merge的方便,MapReduce的實現會自己依據

原创 Hadoop在Mapreduce中使用壓縮詳解

 Hadoop在MapReduce中使用壓縮詳解 Hadoop對於壓縮格式的是透明識別,我們的MapReduce任務的執行是透明的,Hadoop能夠自動爲我們將壓縮的文件解壓,而不用我們去關心。 作者:ggjucheng來源:博客園|

原创 hadoop 分片與分塊,map task和reduce task的理解

 分塊:Block   HDFS存儲系統中,引入了文件系統的分塊概念(block),塊是存儲的最小單位,HDFS定義其大小爲64MB。與單磁盤文件系統相似,存儲在 HDFS上的文件均存儲爲多個塊,不同的是,如果某文件大小沒有到達64M

原创 關於ES性能調優幾件必須知道的事

零)ElasticSearch架構概述   ElasticSearch是現在技術前沿的大數據引擎,常見的組合有ES+Logstash+Kibana作爲一套成熟的日誌系統,其中Logstash是ETL工具,Kibana是數據分析展示平臺。E

原创 elasticsearch5.x集羣HA原理(shards、replicas)

  最近在搭建es5.2的高可用集羣,在這個過程中加深了對es的原理理解,基本分爲四個階段 es單機—>es集羣(多臺機器)—>es分片和副本集分佈原理—>es高可用集羣 1.es單機 在第一個階段基本概念的掌握還是比較熟練的,對應着關係

原创 ElasticSearch怎樣設置 master、data 和 client 節點

在生產環境下,如果不修改elasticsearch節點的角色信息,在高數據量,高併發的場景下集羣容易出現腦裂等問題。   默認情況下,elasticsearch 集羣中每個節點都有成爲主節點的資格,也都存儲數據,還可以提供查詢服務。這些功

原创 ElasticSearch增刪該查Linux下命令大全

我們通常用用_cat API檢測集羣是否健康。 確保9200端口號可用:   curl 'localhost:9200/_cat/health?v'     綠色表示一切正常, 黃色表示所有的數據可用但是部分副本還沒有分配,紅色表示部分數

原创 Elasticsearch —— bulk批量導入數據

在使用Elasticsearch的時候,一定會遇到這種場景——希望批量的導入數據,而不是一條一條的手動導入。那麼此時,就一定會需要bulk命令! 更多內容參考我整理的Elk教程 bulk批量導入 批量導入可以合併多個操作,比如inde

原创 Linux下mysql徹底卸載

一、使用以下命令查看當前安裝mysql情況,查找以前是否裝有mysql ? 1 rpm -qa|grep -i mysql 可以看到如下圖的所示: 顯示之前安裝了:      MySQL-client-5.5.25a-1.rhe

原创 KUDU--秒級查詢的數據倉庫

## == Kudu 是什麼 ==   Kudu是Todd Lipcon@Cloudera帶頭開發的存儲系統,其整體應用模式和HBase比較接近,即支持行級別的隨機讀寫,並支持批量順序檢索功能。   那既然有了HBase,爲什麼還需要Ku

原创 ElasticSearch底層原理淺析

基本概念 索引(Index) ES將數據存儲於一個或多個索引中,索引是具有類似特性的文檔的集合。類比傳統的關係型數據庫領域來說,索引相當於SQL中的一個數據庫,或者一個數據存儲方案(schema)。索引由其名稱(必須爲全小寫字符)進行標識