原创 1.mysql 基礎與安裝

mysql簡介 安裝 注意事項 mysql簡介 mysql算是當前使用最廣泛的數據庫,常見概念中包含如下幾個部分 MySQL - MySQL服務器。你需要該選項,除非你只想連接運行在另一臺機器上的MySQL服務器。 My

原创 6.HDFS文件系統剖析

讀寫流程 結構 寫流程 讀流程 元數據節點 存儲方式 數據結構 安全模式 高可用 機架管理 參考資料 Hadoop三大組件:HDFS/MR/Yarn,前面已經詳述了計算模型MR的全過程,都說Hadoop的思想是

原创 8.python 查詢hbase2 (二)

環境準備 連接 查詢 掃描 源碼下載 上篇文章講述了python如何通過thrift連接操作hbase,是官方最常用方法,但是略顯麻煩。下面介紹兩種更易用的場合,在指定的場景中可以考慮使用,本節介紹thrift2,下節介紹

原创 2.hbase 安裝

下載和版本選擇 安裝Java環境 解壓安裝包 配置 開啓和測試 下載和版本選擇 官網下載 https://hbase.apache.org/downloads.html 鏡像下載 https://supergsego.c

原创 9.python 查詢hbase2 (三)

環境準備 連接 查詢 掃描 源碼下載 前文有說thrift連接操作hbase略顯麻煩,happybase完美解決這些問題,操作接口很類似hbase shell,性能和異常處理相對官方版本也做了諸多優化,可謂真的相當的hap

原创 7.python 查詢hbase2 (一)

thrift環境準備 連接 查詢 掃描 源碼下載 thrift環境準備 hbase是接口API是java的,如果需要通過python來操作的話,可以使用thrift服務。使用thrift需要部署thrift接口服務和thr

原创 go jenkins自動編譯部署

jenkins安裝 jenkins配置 go插件安裝 編譯配置 參考文檔 jenkins安裝 安裝包下載位置,可以直接安裝對應系統安裝包,也可以使用通用安裝包.war文件,這裏使用war包安裝。 單獨運行 Jenkin

原创 4.RDD常見操作

RDD 分類 RDD 操作演示 RDD 核心概念-彈性分佈式數據集 類似Map/Reduce始終使用KV數據對,Spark中RDD可以保存所有類型數據,類似數據庫中的一張表。RDD是不可變的,通過變換操作,返回全新RDD,

原创 2.spark 獨立模式安裝

安裝Spark 下載 安裝 測試 開啓shell shell測試 安裝Spark 下載 下載位置 http://spark.apache.org/downloads.html 注意選擇適合對應hadoop版本的

原创 5.最簡單Spark應用 WordCount

編寫步驟 本地測試 提交集羣運行 下載 編寫步驟 引入spark庫 這裏使用maven <!-- https://mvnrepository.com/artifact/org.apache.spark/spar

原创 5.hbase 批量導入數據

Bulk Loading Importtsv 生成HFile 導入HBase 自定義MR 生成HFile 導入HBase 注意事項 源碼下載 Bulk Loading 向hbase寫入數據常用兩種方式: 客戶

原创 4.hbase 表設計原則

反範式很重要 不用區分行和列 牢記有序和行鍵設計 - key均勻化 - 組合key(索引)設計 不同於傳統關係數據庫圍繞數據先建模再考慮查詢,HBase(Cassandra等NOSQL)強調圍繞查詢進行建模,幹什麼活做什麼

原创 3.hbase 存儲模型和存儲過程分析

邏輯存儲模型 物理存儲模型 存儲過程 - 查詢 - 寫入 - 刪除 hbase爲什麼可以存儲PB級的數據還可以保證千萬QPS的併發和ms級的訪問速度,這得離不開它巧妙的存儲模型和存儲過程。另一方面,只有清楚瞭解hbase存

原创 6.thrift centos編譯

編譯 問題 下載 業界兩大RPC框架thrift(Facebook)和protobuf(Google)現在可是用的非常普遍,linux上編譯thrift遇到不少坑,記下來供有需要的朋友參考。 編譯 系統環境: 操作系統爲

原创 1.大數據存儲選型——何時用hbase

數據庫發展 NoSQL Sharding-nothing 存儲選型 要搞懂大數據存儲選型,首先必須得了解數據庫的發展歷史,瞭解關係數據庫的優勢和缺點,才能進一步考慮如何處理這些問題。 數據庫發展 簡單來說,數據庫的發