原创 MapReuce筆記一之概念簡介

概念簡述 簡介          MapReduce是一種計算框架,計算模型用來解決海量數據計算問題。在運行時一部分負責管理叫MRAppMaster運行在yarn容器中,剩下的統稱爲任務task也是在yarn容器中運行。         

原创 Elasticsearch筆記七之setting,mapping,分片查詢方式

setting 通過setting可以更改es配置可以用來修改副本數和分片數。 1:查看,通過curl或瀏覽器可以看到副本分片信息 curl -XGET http://192.168.79.131:9200/shb01/_setting

原创 Elasticsearch筆記九之優化

優化從索引片段,內存設置,副本,分片,日誌等方面入手。 1:索引片段Es運行時會生成很多索引片段,執行查詢時會打開這些索引片斷。系統會限制打開索引片

原创 MapReuce筆記四之hadoop類型和MR操作hdfs數據實例

Hadoop類型 Hadoop的類型全部在hadoop.io包中,下表是java與hadoop類型的對應關係 Java Hadoop   long org.apache.hadoop.io.LongWritable

原创 Elasticsearch筆記八之腦裂

概述:   一個正常es集羣中只有一個主節點,主節點負責管理整個集羣,集羣的所有節點都會選擇同一個節點作爲主節點所以無論訪問那個節點都可以查看集羣的狀態信息。 而腦裂問題的出現就是因爲從節點在選擇主節點上出現分歧導致一個集羣出現多個主節點

原创 MapReuce筆記六之輸入類InputFormat

使用hadoop jar執行mapreduce任務時首先從hdfs中讀取數據將這些數據解析爲inputsplit,然後再將inputsplit中的內容解析爲一個一個的<k,v>鍵值對,這個過程就是有InputFormat的子類完成的。之前

原创 Redis筆記十一之主從複製

設置主從:         其實Redis配置主從只需要修改這個slaveof參數。         在redis.conf中更改slaveof參數在其後面指定主節點的ip和端口號告訴它誰是主節點。redis啓動後主從節點之間會進行通信兩

原创 MapReuce筆記二之MR任務在yarn容器中的資源管理

Yarn是hadoop2.0之後引入的一個資源管理層,mapreduce也僅是yarn的一種應用模式,按照既定的協議從yarn中申請cpu,內存等資源。 Yarn由五部分組成,recouceManager(RM),nodeManager

原创 Elasticsearch筆記二之Curl工具基本操作

簡介: Curl工具是一種可以在命令行訪問url的工具,支持get和post請求方式。-X指定http請求的方法,-d指定要傳輸的數據。 創建索引: Put創建 curl -XPUThttp://localhost:9200/shb01/

原创 Elasticsearch筆記三之版本控制和插件

版本控制 1:關係型數據庫使用的是悲觀鎖,數據被讀取後就被鎖定其他的線程就無法對其進行修改。 2:ex使用的是樂觀鎖,數據被讀取後其他程序還可以對其進行修改,而執行修改時發現此數據已經被修改則修改就會失敗,之後則由程序對此進行下一步處理。

原创 Hadoop筆記五之Hadoop僞分佈安裝

linux 配置 1:ip配置 執行ifconfig命令可以查看ip地址 虛擬機一般是動態分配ip,實際生產環境需要使用靜態ip,在/etc/sysconfig/network-scripts目錄下的ifcfg-eth0文件中修改ip信

原创 Elasticsearch筆記六之中文分詞器及自定義分詞器

中文分詞器 在lunix下執行下列命令,可以看到本來應該按照中文”北京大學”來查詢結果es將其分拆爲”北”,”京”,”大”,”學”四個漢字,這顯然不符合我的預期。這是因爲Es默認的是英文分詞器我需要爲其配置中文分詞器。 curlHTTP:

原创 MapReuce筆記五之SequenceFile,MapFile

SequenceFile SequenceFile是hadoop中提供的一種二進制文件支持,可以將小文件序列化到大文件中。文件名稱爲key文件內容爲value,優點是支持壓縮格式(CompressionType.BLOCK和Compres

原创 Sqoop筆記二之命令使用

ist-databases命令查看所有的數據庫 linux下執行: sqooplist-databases --connect jdbc:mysql://192.168.172.1:3306/ -username root-passwor

原创 MapReuce筆記三之序列化

在運行map和reduce任務時會需要從hdfs中讀取數據,從linux磁盤中讀取數據,這些數據往往存在於不同的節點上,這樣就會產生IO網絡消耗。Hadoop提供了org.apache.hadoop.io.Writable接口來實現序列化