原创 10.go 批量寫hbase方法和坑

thrift go 使用 批量寫入 寫入的幾處坑 源碼下載 thrift go 使用 和python使用類似,使用go 也需要通過thrift接口訪問hbase,參考之前,如下編譯thrift接口 thrift -gen

原创 3.spark 集羣模式安裝

集羣模式說明 安裝JDK/Scala 安裝hadoop 安裝Spark 下載 安裝 測試 開啓獨立集羣 開啓shell 執行語句測試 集羣模式說明 如第一節所說,spark依賴的存儲引擎和資源調度框架均可以替換

原创 1.hive基礎與安裝

hive簡介 hive簡單安裝 - 快速測試 - 生產環境配置 hive簡介 hive是標準hadoop體系的一員,常作爲OLAP的數據倉庫。hive存儲一般基於HDFS或HBase構建,查詢計算過程依賴 Apache T

原创 1.mysql 基礎與安裝.md

mysql簡介 安裝 注意事項 mysql簡介 mysql算是當前使用最廣泛的數據庫,常見概念中包含如下幾個部分 MySQL - MySQL服務器。你需要該選項,除非你只想連接運行在另一臺機器上的MySQL服務器。 My

原创 1.kafka 基礎與安裝

基礎 Kafka是基於Scala開發的多分區、多副本基於ZooKeeper協調的分佈式消息引擎系統。和傳統的消息隊列/消息中間件不同,如下圖,kafka一般當作集羣用,支持如下功能: 消息系統:類似傳統消息隊列(中間件)的功能,

原创 1.zookeeper 基礎與安裝

基礎 zookeepr是一個最先由Yahoo開發的分佈式協調服務,支持高性能、高可用的分佈式協調服務,常用於數據發佈/訂閱、負載服務、命名服務、分佈式協調/通知,集羣管理、Master選舉、分佈式鎖和分佈式隊列等功能。 通常ZK組

原创 vmware NAT多機組網

經常遇到需要在本地搭建分佈式環境的需求,這需要搭建一套本地的多虛擬機互聯,要求: 1.每臺虛擬機能上網 2.虛擬機之間能ssh訪問 3.虛擬機和主機之間能相互訪問 一般採用NAT的方式組網,這裏記下全流程,以供備忘。 組網原理 N

原创 1.spark基礎概念

hadoop存在問題 spark優點 Spark技術棧 Spark體系架構 核心架構 hadoop存在問題 基於磁盤,運行慢 函數函數較少,只有map/reduce,不夠靈活 spark優點 基於內存,優先存儲在內存

原创 scala 安裝和配置

使用Scala原因 API足夠優雅簡單,快速上手,函數式特別適合處理數據,代表Kafka和Spark 和基於JVM的hadoop生態結合好,可以混合java 速度快,靜態編譯,相對其他JVM速度快 安裝和配置 首先需要安裝Java

原创 1.maven基礎使用

下載 安裝 配置 生命週期 插件 下載 下載位置,目前直接使用3.x版本即可 安裝 直接解壓到對應目錄即可,配置M2_HOME環境變量指向解壓後目錄,一些軟件會默認引用這個環境變量來查找Maven的安裝。然後配置path變量指

原创 2.maven座標和依賴

定義 引用 依賴範圍 依賴傳遞 定義 maven使用POM(Project Object Model, 項目對象模型)文件 pom.xml來管理依賴。首先,默認定義一個包是通過指定groupId、artifactId、vers

原创 3.maven最佳實戰

聚合 繼承 實戰 通常使用maven主要使用它的自動拉取包的功能,在此基礎上我們考慮如何組織大型項目,一般大型項目都由多個模塊組成,這些模塊分別有相同和不同的jar包依賴,各個項目模塊之間也存在依賴關係,怎麼合理組織這些項目呢

原创 工具-Hadoop Streaming

用途和原理 程序編寫 其他參數設置 源碼和參考 用途和原理 前面寫MR都是使用的java,但是通常數據分析人員不一定會java,難道還要去學習下java再寫MR?實際上不用,hadoop已經考慮到了這個問題,所以它提供了一箇中

原创 工具-Hadoop Archive

原理 命令使用方式 演示 不足 原理 Hadoop的文件存儲的單元爲一個塊(block),block的數據存放在集羣中的datanode節點上,由namenode對所有datanode存儲的block進行管理。每個文件對應的b

原创 hbase 存儲模型和存儲過程分析

邏輯存儲模型 物理存儲模型 存儲過程 - 查詢 - 寫入 - 刪除 hbase爲什麼可以存儲PB級的數據還可以保證千萬QPS的併發和ms級的訪問速度,這得離不開它巧妙的存儲模型和存儲過程。另一方面,只有清楚瞭解hbase存儲模