原创 NBA之spark-hive解析答案

這裏的兩份數據是NBA 2017-2018賽季 的比賽結果nba_game.csv和比賽詳情nba_game_detail.csv 關於NBA,需要了解一個背景知識:     NBA總共有30支球隊     NBA的每支球隊在每個賽季的常

原创 HBase優化實戰

背景 Datastream一直以來在使用HBase分流日誌,每天的數據量很大,日均大概在80億條,10TB的數據。對於像Datastream這種數據量巨大、對寫入要求非常高,並且沒有複雜查詢需求的日誌系統來說,選用HBase作爲其數據存儲

原创 python在Linux上的安裝

python-3.6.4在centos-6.7安裝:詳細步驟:1、安裝一些依賴的軟件包yum -y groupinstall "Development tools" yum -y install zlib-devel bzip2-deve

原创 大數據編程犯的錯誤系列

1.兩個路徑的區別 1) /home/cry/zookeeper.out     這個路徑,在spark編程中,系統會認爲是在從進羣取這個文件。相當於這個路徑:hdfs://bd1803/home/cry/zookeeper.out  2

原创 用IntelliJ IDEA :park和hive整合編寫代碼實現

代碼: package sparksql_hive import org.apache.spark.{SparkConf, SparkContext} import org.apache.spark.sql.hive.HiveCont

原创 flume網絡端口 收集數據

1、在$FLUME_HOME/agentconf 目錄下創建一個數據採集方案,該方案就是從一個網絡端口收集數據,也就是創一個任意命名的配置文件如下:netcat-logger.properties文件內容如下:# 定義這個 agent 中