原创 Flink WordCount 之lamda版

學習Flink的時候第一個入門程序WordCount,官方給的使用匿名類實現方法,這樣看起來代碼不簡潔。於是想用lamda改寫下,踩了不少坑,記錄下。 Table of Contents 官方給定版本 Lamda第一版 POJO版  錯誤

原创 導出hive數據庫建表語句到git庫

因爲當前prod環境和本地開發環境有網絡隔離,不能直接訪問,故導出的hive數據庫建表語句打包壓縮後上傳到HDFS上,再手動下載到本地,上傳到Git; STEP 1:到處建表語句,壓縮打包上傳到HDFS; STEP 2:手動下載建表語句包

原创 【大數據環境篇一】 Hadoop 本地環境搭建概述

本環境篇系列,只記錄安裝步驟和配置文件等信息,不講解碰到的問題。 Hadoop 2.10.0   安裝HDFS   配置文件 etc/hadoop/core-site.xml <configuration>     <property>

原创 HBase刪除之後的讀取和寫入

1 HBase 刪除操作   刪除ColumnFamily Delete delete = new Delete(rowKey); delete.addFamily(columnFamily) delete.setTimestamp(t

原创 Spark SQL 連接 Hive

Table of Contents 環境 準備測試數據 依賴包準備 第一種 metastore service 已啓動 第二種 Metastore Service 未啓動 環境 Hadoop 2.10.0 Spark version: 2

原创 Spark基礎 之 Partition

本文是Spark知識總結帖,講述Spark Partition相關內容。   1 什麼是Partition  Spark RDD 是一種分佈式的數據集,由於數據量很大,因此要它被切分並存儲在各個結點的分區當中。從而當我們對RDD進行操作時

原创 hadoop 本地環境搭建

Table of Contents     0. 安裝版本 1. 安裝依賴 2. 安裝HDFS 2.1 配置文件 2.2 執行啓動命令 3 安裝yarn 4 關閉服務器   0. 安裝版本 hadoop version:2.10.0 ru

原创 【大數據環境篇二】Hive 本地環境搭建概述(四種運行模式)

Hive 3.1.2 Table of Contents Hive 3.1.2 1 共用配置信息 1.1 配置Hadoop安全設置 1.2 創建數據存放目錄 2. Hive 運行模式 2.1 Embedded Database + Emb

原创 如何區分海狗、海獅、海豹?它們有何區別?

三者區別: 特點|動物名稱 海豹 海獅 海狗 毛 有斑點 雄性有鬃毛、雌性沒有;毛粗而濃密 細而疏,絨毛 耳 耳洞 小有耳廓 小有耳廓 運動特徵 蠕動 能站立 跑等很快 https://baike.baidu.com/tashuo/bro

原创 Spark基礎 之 Job, Stage, Partition, Task, Executor

最近在開發spark streaming 程序時對這些概念有了深刻的理解。在此總結下。 我最近的 spark streaming 核心代碼如下: stream.foreachRDD(rdd -> { try {

原创 [Spark程序] 之 單節點cache方案探討

最近在做一個分佈式任務時,遇到一個需求: 一個用戶member,可以有多個登陸ip,並把這些ip加入到可信ip集合中。可信集合上限100,當超過100時,對已經存在的100個進行LRU(last recent unused)替換。   方

原创 Spark知識 之 Partition

本文是Spark知識總結帖,講述Spark Partition相關內容。   1 什麼是Partition  Spark RDD 是一種分佈式的數據集,由於數據量很大,因此要它被切分並存儲在各個結點的分區當中。從而當我們對RDD進行操作時

原创 【工具類】系列五 可控大小Cache之 MemberCache

Cache裏經常用到的兩個功能就是: 1 當key對應的值不存在時,加載進來並可以訪問。 2 達到cache的上限後,可以LRU清除。   開源包guava自帶的cache就很好的滿足了上面的需求。   依賴: compile 'co

原创 【工具類】系列三 HBase訪問工具類 HBaseUtil

這是對HBase訪問的簡單封裝,主要是Spark executor上使用,就沒有注意多線程安全了。若有需要自己優化。   直接貼代碼: /** * HBase Utility class, HBase Design document

原创 [工具類] 系列二 Lettuce 訪問Redis 工具類 RedisUtil

最近公司Redis集羣啓用了ssl和密碼校驗,使用Jedis訪問Redis Cluster的時候,支持不太好。看到spring-data-redis 2.x開始使用Lettuce訪問Redis,於是開始吃個螃蟹。   Lettuce介紹