原创 Spark基礎全解析

SPARK全解析 標籤(空格分隔): Spark SPARK全解析 Spark是什麼? Spark 源碼編譯 Spark本地模式安裝配置及Spark Shell基本使用 Spark集羣 Spark Application開發、運行及

原创 Solr語法解析及SolrJ使用

Solr語法解析及SolrJ使用 標籤(空格分隔): Solr 官方指南:http://lucene.apache.org/solr/quickstart.html Solrj 之HttpSolrClient 舊版本的連接服務HttpS

原创 Hive基礎指南

Hive指南 標籤(空格分隔): Hive HIVE基本介紹 Hive是由FaceBook開源的用於解決海量結構化日誌的數據統計,後成爲Apache Hive的一個開源項目,Hive是基於Hadoop的一個數據倉庫工具,可以將結構化的數

原创 Kafka全解析

kafka 標籤(空格分隔): Kafka 一. Concepts Kafka is used for building real-time data pipelines and streaming apps 分佈式消息傳遞 網站活躍

原创 Flume + Kafka + TridentStorm + Hbase項目實戰

Flume + Kafka + TridentStorm + Hbase項目實戰 版權聲明:禁止轉載,轉載必究 標籤(空格分隔): Storm項目 Write by Vin 1,項目簡介 項目名稱:基於Storm開發實現的實時網站流量統

原创 Hbase基礎全解析

HBASE基礎全解析 標籤: 大數據生態 本文使用版本 hbase-0.98.6-cdh5.3.6 源碼庫: https://github.com/apache/hbase/releases 注:rel = release即發行

原创 Apache Beam指南

Apache Beam 標籤(空格分隔): Hadoop 1. What is Beam ? 前世今生: 誕生背景: 分佈式數據處理發展迅猛 –> 新的分佈式數據處理技術越來越多 –> Hadoop MapReduce,Apache

原创 Actor模型與Akka

Actor模型與Akka 一. Actor模型 Actor模型概念 一個概念模型,用於處理併發計算 Actor模型內部的狀態由自己的行爲維護,外部線程不能直接調用對象的行爲,必須通過消息才能激發行爲,這樣就保證Actor內部數據只有被

原创 Redis DB開發指南

Redis DB 標籤(空格分隔): Redis 1,概述: Redis是一個開源的使用ANSI C語言編寫、支持網絡、可基於內存亦可持久化的日誌型、Key-Value數據庫,並提供多種語言的API 2,安裝、編譯Redis 安裝、

原创 Flume指南

Flume基礎 標籤(空格分隔): Flume Flume概述 Flume是一個分佈式的,可靠的,可用的,非常有效率的對大數據量的日誌數據進行收集,聚集,移動信息的服務,Flume僅僅運行在linux環境下,它是一個基於流式的數據的靈活

原创 Windows系統Solr單機安裝

Windows系統Solr單機安裝 標籤(空格分隔): Solr Solr概覽 1, 什麼是Solr Solr是一個獨立的企業級搜索應用服務器,它對外提供類似於Web-service的API接口。用戶可以通過http請求,向搜索引擎服務

原创 Spark開發性能調優

Spark開發性能調優 標籤(空格分隔): Spark –Write By Vin 1. 分配資源調優 Spark性能調優的王道就是分配資源,即增加和分配更多的資源對性能速度的提升是顯而易見的,基本上,在一定範圍之內,增加資源與性能的提

原创 Scala基礎語法指南

Scala 標籤(空格分隔): Scala By Vinfly Scala Scala介紹 Scala語法 聲明變量 數據類型與操作符 函數調用和apply()函數 條件控制和循環 函數 數組 數組轉換 Map與Tuple 面

原创 Azkaban基礎指南

Azkaban 標籤(空格分隔): Azkaban Azkaban is a batch workflow job scheduler created at LinkedIn to run Hadoop jobs. Azkaban re