原创 數據倉庫指北

一、 Q&A Q1:什麼是維度? 維就可以相當於角度,當說按什麼維度看數據就是你想從什麼角度分析數據。 Q2:什麼是次留用戶,7日留存? 次留用戶指的是統計當天的用戶仍是昨天的那個用戶,7日留存用戶指的就是統計當天活躍的用戶是在7天前同樣活

原创 Spark學習(四)——Spark SQL

在知乎看到文章說,學習spark分爲兩個方向,一個是數據平臺開發,一個是數據處理開發,用spark的話做數據處理開發的日常用得最多的就是sparkSQL,需要會懂得什麼是數據傾斜,原理,如何解決,還有sparkSQL的語句的靈活編寫,瞭解

原创 Spark學習(三)——Spark Core

一、核心組件 spark是一個典型的master-slave主從架構,有一些核心組件:Driver和Executor、Master和Worker、ApplicationMaster。對於standalone獨立部署模式下,Driver和Ex

原创 hive積累大全

此篇內容:hive自定義函數UDF、UDTF,壓縮存儲方式,hive優化、hive實際編程 SQL中的if表達式用法和流程控制用法:https://www.cnblogs.com/xuhaojun/p/9141396.html hive原

原创 Shell腳本輕鬆學

一、Shell是什麼 shell是一門命令語言,linux環境默認支持的,主要用於用戶與linux內核直接交互的一門中間解釋語言,linux內核只認識二進制代碼,所以簡單說,用戶編寫shell腳本發出命令,linux內核接收命令並執行操作,

原创 在hadoop集羣上安裝hive+mysql

一、安裝hive前提條件 hive運行在hadoop集羣上,所以先要確保你的hadoop集羣已經安裝完畢並且可正常啓動運行。如果沒安裝好hadoop集羣的可以參考我的這篇文章:Hadoop學習(一)入門與集羣搭建。接着還需要安裝mysql,

原创 Linux資源佔用監控

一、Linux資源監控常用4個命令 top命令:查看系統資源使用情況 演示:在linux機器上輸入命令,top -H -b -d 1 -n 200 > top.txt,表示每隔1秒統計一次,共200次,顯示線程細節,並保存到top.tx

原创 linux資源佔用監控

linux資源監控,以下大概放置學習時接觸到的4條命令。 top命令:查看系統資源使用情況 演示:在linux機器上輸入命令,top -H -b -d 1 -n 200 > top.txt,表示每隔1秒統計一次,共200次,顯示線程

原创 與時間相關的函數

時間函數在日常工作中用得很多,總結一波。以下在日常工作平臺anyloader任務中常用 一、mysql 涉及到函數格式化的參數及含義 參數 含義 %Y 年,4位格式 %y 年,2位格式 %m 月,數字格式 %d

原创 Spark學習(二)——RDD和WordCount程序

Spark SQL主要用作離線海量數據分析 Spark Streaming主要用作對數據實時處理 Spark的工作原理與MapReduce是如出一轍的,區別在於MapReduce是在HDFS上做計算,而Spark是在內存中做計算,這就形成

原创 HBase學習(二)——完全分佈式安裝

一、下載地址 http://archive.apache.org/dist/hbase/ 在裏面找想要安裝的hbase版本你,我這裏選擇的是hbase-1.1.6版本。 二、安裝步驟 注意:安裝hbase的前提是你已經搭建好了hadoop

原创 【Spring Boot】自動配置原理和日誌整合

主要看Spring Boot源碼來進行解析 一、看源碼理解自動配置原理 1、當我們啓動一個springboot應用,加載主配置類時,就會開啓自動配置功能@EnableAutoConfiguration註解。使用IDEA開發工具,按住c

原创 ZooKeeper學習(一)——集羣搭建

本文我搭建的是linux版的zookeeper集羣,並非windows方式。 一、下載zookeeper 直接去Apache官網下載zookeeper,附官網地址:http://zookeeper.apache.org/,然後點擊下圖的

原创 Scala學習(一)——安裝與入門

一、簡介 Scala 是一門類 Java 的編程語言,是馬丁.奧德斯基設計的,它結合了面向對象編程和函數式編程。學習scala編程語言是爲了更好地掌握spark這個大數據計算框架,spark源碼就是用scala寫的。不過scala語言最

原创 【Spring Boot】web開發

spring boot做web開發,十分方便,直接在pom.xml文件中引入web場景啓動器依賴即可。省去了spring MVC的配置文件,這樣我們就可以把重心放在編寫我們的業務代碼了。 <dependency> <groupId>