台部落文大侠

thrift go 使用批量寫入寫入的幾處坑源碼下載 thrift go 使用和python使用類似，使用go 也需要通過thrift接口訪問hbase，參考之前，如下編譯thrift接口 thrift -gen

2020-06-01 09:08:17

集羣模式說明安裝JDK/Scala 安裝hadoop 安裝Spark 下載安裝測試開啓獨立集羣開啓shell 執行語句測試集羣模式說明如第一節所說，spark依賴的存儲引擎和資源調度框架均可以替換

2020-02-23 04:54:05

hive簡介 hive簡單安裝 - 快速測試 - 生產環境配置 hive簡介 hive是標準hadoop體系的一員，常作爲OLAP的數據倉庫。hive存儲一般基於HDFS或HBase構建，查詢計算過程依賴 Apache T

2019-10-28 02:14:16

mysql簡介安裝注意事項 mysql簡介 mysql算是當前使用最廣泛的數據庫，常見概念中包含如下幾個部分 MySQL - MySQL服務器。你需要該選項，除非你只想連接運行在另一臺機器上的MySQL服務器。 My

2019-10-28 02:14:16

基礎 Kafka是基於Scala開發的多分區、多副本基於ZooKeeper協調的分佈式消息引擎系統。和傳統的消息隊列/消息中間件不同，如下圖，kafka一般當作集羣用，支持如下功能：消息系統：類似傳統消息隊列(中間件)的功能，

2019-07-18 07:07:42

基礎 zookeepr是一個最先由Yahoo開發的分佈式協調服務，支持高性能、高可用的分佈式協調服務，常用於數據發佈/訂閱、負載服務、命名服務、分佈式協調/通知，集羣管理、Master選舉、分佈式鎖和分佈式隊列等功能。通常ZK組

2019-06-30 02:55:47

經常遇到需要在本地搭建分佈式環境的需求，這需要搭建一套本地的多虛擬機互聯，要求： 1.每臺虛擬機能上網 2.虛擬機之間能ssh訪問 3.虛擬機和主機之間能相互訪問一般採用NAT的方式組網，這裏記下全流程，以供備忘。組網原理 N

2019-06-29 03:24:15

hadoop存在問題 spark優點 Spark技術棧 Spark體系架構核心架構 hadoop存在問題基於磁盤，運行慢函數函數較少，只有map/reduce，不夠靈活 spark優點基於內存，優先存儲在內存

2019-05-27 06:20:20

使用Scala原因 API足夠優雅簡單，快速上手，函數式特別適合處理數據，代表Kafka和Spark 和基於JVM的hadoop生態結合好，可以混合java 速度快，靜態編譯，相對其他JVM速度快安裝和配置首先需要安裝Java

2019-05-14 14:59:02

下載安裝配置生命週期插件下載下載位置，目前直接使用3.x版本即可安裝直接解壓到對應目錄即可，配置M2_HOME環境變量指向解壓後目錄，一些軟件會默認引用這個環境變量來查找Maven的安裝。然後配置path變量指

2019-04-03 02:14:10

定義引用依賴範圍依賴傳遞定義 maven使用POM(Project Object Model, 項目對象模型)文件 pom.xml來管理依賴。首先，默認定義一個包是通過指定groupId、artifactId、vers

2019-04-03 02:14:10

聚合繼承實戰通常使用maven主要使用它的自動拉取包的功能，在此基礎上我們考慮如何組織大型項目，一般大型項目都由多個模塊組成，這些模塊分別有相同和不同的jar包依賴，各個項目模塊之間也存在依賴關係，怎麼合理組織這些項目呢

2019-04-03 02:14:10

用途和原理程序編寫其他參數設置源碼和參考用途和原理前面寫MR都是使用的java，但是通常數據分析人員不一定會java，難道還要去學習下java再寫MR？實際上不用，hadoop已經考慮到了這個問題，所以它提供了一箇中

2019-03-31 02:19:05

原理命令使用方式演示不足原理 Hadoop的文件存儲的單元爲一個塊（block），block的數據存放在集羣中的datanode節點上，由namenode對所有datanode存儲的block進行管理。每個文件對應的b

2019-03-31 02:19:05

邏輯存儲模型物理存儲模型存儲過程 - 查詢 - 寫入 - 刪除 hbase爲什麼可以存儲PB級的數據還可以保證千萬QPS的併發和ms級的訪問速度，這得離不開它巧妙的存儲模型和存儲過程。另一方面，只有清楚瞭解hbase存儲模

2019-03-31 02:19:05