原创 《Spark實時詞頻統計處理系統》

------此項目整理自《Spark Streaming 實時流式大數據處理實戰》肖力濤                                             第8章 實時詞頻統計處理系統實戰 原書源碼地址:https:

原创 Redis安裝及Jedis使用筆記

一、部署  單機模式(standalone)部署 1. Linux下安裝gcc,(用於編譯c文件),root用戶執行 $ yum install gcc 2. 在/opt下安裝redis $ cd /opt $ wget h

原创 Spark Streaming之流式詞頻統計(Socket數據源)

一、環境 Spark、Hadoop環境搭建可參看之前文章。 開發環境: 系統:Win10 開發工具:scala-eclipse-IDE 項目管理工具:Maven 3.6.0 JDK 1.8 Sca

原创 Spark之入門單詞統計

一、環境 Spark、Hadoop環境搭建可參看之前文章。 開發環境: 系統:Win10 開發工具:scala-eclipse-IDE 項目管理工具:Maven 3.6.0 JDK 1.8 Sca

原创 Spark Streaming之流式黑名單詞彙統計(廣播變量、累加器實現)

一、案例介紹 1. 在上篇博文 Socket數據源流式詞頻統計 的基礎上,使用廣播變量和累加器,實現對輸入數據進行黑名單統計。 2. 使用 wordCounts.foreachRDD() 對流數據中黑名單詞彙統計,並輸出至控制檯:   

原创 Spark之Join和聚合操作實例

一、環境 Spark、Hadoop環境搭建可參看之前文章。 開發環境: 系統:Win10 開發工具:scala-eclipse-IDE 項目管理工具:Maven 3.6.0 JDK 1.8 Sca

原创 Apache服務器日誌Log解析

------------本文筆記整理自《Hadoop海量數據處理:技術詳解與項目實戰》範東來 一、Apache服務器日誌信息組成說明 1. group-0 是一條初始的log日誌信息; 2. group-1 ~ group-15 是對該條

原创 MapReduce任務是多進程單線程模式驗證

一、驗證MapReduce任務是多進程的  1. 實現MyMapper代碼,Reducer可相同處理。如下: package com.mapreduce; import java.io.IOException; import java

原创 《在線圖書銷售商業智能系統》流程框架實現

項目整理自:《Hadoop海量數據處理:技術詳解與項目實戰》範東來 對應的電子書地址:https://pan.baidu.com/s/1JKmcgpyBBcrvhT7h8ZK3Pw                             

原创 ZooKeeper部署及相關概念筆記

一、部署  兩臺虛擬機(CentOS Linux 7): 192.168.190.200 master 192.168.190.201 slave1 創建兩個zookeeper服務,最好是奇數個節點,原因:

原创 【轉】Linux中管道符"|"

利用Linux所提供的管道符“|”將兩個命令隔開,管道符左邊命令的輸出就會作爲管道符右邊命令的輸入。連續使用管道意味着第一個命令的輸出會作爲 第二個命令的輸入,第二個命令的輸出又會作爲第三個命令的輸入,依此類推。下面來看看管道是如何在構造

原创 Kafka部署及相關概念筆記

一、部署 部署Kafka前需先部署Zookeeper,上篇博文:ZooKeeper部署 兩臺虛擬機(CentOS Linux 7): 192.168.190.200 master 192.168.190.201 slav

原创 Java併發編程的volatile關鍵字(收藏)

Java併發編程:volatile關鍵字解析

原创 Spark 循環迭代式作業與作業間結果傳遞測試

package com.fw.sparktest import org.apache.spark.rdd.RDD import org.apache.spark.{SparkConf, SparkContext} object Te

原创 Mongo部署筆記

1. MongoDB 下載 Chrome訪問:https://www.mongodb.com/download-center/community (注:Edge瀏覽器不兼容) 下載版本:https://fastdl.