原创 Flink WordCount 之lamda版
學習Flink的時候第一個入門程序WordCount,官方給的使用匿名類實現方法,這樣看起來代碼不簡潔。於是想用lamda改寫下,踩了不少坑,記錄下。 Table of Contents 官方給定版本 Lamda第一版 POJO版 錯誤
原创 導出hive數據庫建表語句到git庫
因爲當前prod環境和本地開發環境有網絡隔離,不能直接訪問,故導出的hive數據庫建表語句打包壓縮後上傳到HDFS上,再手動下載到本地,上傳到Git; STEP 1:到處建表語句,壓縮打包上傳到HDFS; STEP 2:手動下載建表語句包
原创 【大數據環境篇一】 Hadoop 本地環境搭建概述
本環境篇系列,只記錄安裝步驟和配置文件等信息,不講解碰到的問題。 Hadoop 2.10.0 安裝HDFS 配置文件 etc/hadoop/core-site.xml <configuration> <property>
原创 HBase刪除之後的讀取和寫入
1 HBase 刪除操作 刪除ColumnFamily Delete delete = new Delete(rowKey); delete.addFamily(columnFamily) delete.setTimestamp(t
原创 Spark SQL 連接 Hive
Table of Contents 環境 準備測試數據 依賴包準備 第一種 metastore service 已啓動 第二種 Metastore Service 未啓動 環境 Hadoop 2.10.0 Spark version: 2
原创 Spark基礎 之 Partition
本文是Spark知識總結帖,講述Spark Partition相關內容。 1 什麼是Partition Spark RDD 是一種分佈式的數據集,由於數據量很大,因此要它被切分並存儲在各個結點的分區當中。從而當我們對RDD進行操作時
原创 hadoop 本地環境搭建
Table of Contents 0. 安裝版本 1. 安裝依賴 2. 安裝HDFS 2.1 配置文件 2.2 執行啓動命令 3 安裝yarn 4 關閉服務器 0. 安裝版本 hadoop version:2.10.0 ru
原创 【大數據環境篇二】Hive 本地環境搭建概述(四種運行模式)
Hive 3.1.2 Table of Contents Hive 3.1.2 1 共用配置信息 1.1 配置Hadoop安全設置 1.2 創建數據存放目錄 2. Hive 運行模式 2.1 Embedded Database + Emb
原创 如何區分海狗、海獅、海豹?它們有何區別?
三者區別: 特點|動物名稱 海豹 海獅 海狗 毛 有斑點 雄性有鬃毛、雌性沒有;毛粗而濃密 細而疏,絨毛 耳 耳洞 小有耳廓 小有耳廓 運動特徵 蠕動 能站立 跑等很快 https://baike.baidu.com/tashuo/bro
原创 Spark基礎 之 Job, Stage, Partition, Task, Executor
最近在開發spark streaming 程序時對這些概念有了深刻的理解。在此總結下。 我最近的 spark streaming 核心代碼如下: stream.foreachRDD(rdd -> { try {
原创 [Spark程序] 之 單節點cache方案探討
最近在做一個分佈式任務時,遇到一個需求: 一個用戶member,可以有多個登陸ip,並把這些ip加入到可信ip集合中。可信集合上限100,當超過100時,對已經存在的100個進行LRU(last recent unused)替換。 方
原创 Spark知識 之 Partition
本文是Spark知識總結帖,講述Spark Partition相關內容。 1 什麼是Partition Spark RDD 是一種分佈式的數據集,由於數據量很大,因此要它被切分並存儲在各個結點的分區當中。從而當我們對RDD進行操作時
原创 【工具類】系列五 可控大小Cache之 MemberCache
Cache裏經常用到的兩個功能就是: 1 當key對應的值不存在時,加載進來並可以訪問。 2 達到cache的上限後,可以LRU清除。 開源包guava自帶的cache就很好的滿足了上面的需求。 依賴: compile 'co
原创 【工具類】系列三 HBase訪問工具類 HBaseUtil
這是對HBase訪問的簡單封裝,主要是Spark executor上使用,就沒有注意多線程安全了。若有需要自己優化。 直接貼代碼: /** * HBase Utility class, HBase Design document
原创 [工具類] 系列二 Lettuce 訪問Redis 工具類 RedisUtil
最近公司Redis集羣啓用了ssl和密碼校驗,使用Jedis訪問Redis Cluster的時候,支持不太好。看到spring-data-redis 2.x開始使用Lettuce訪問Redis,於是開始吃個螃蟹。 Lettuce介紹