原创 一篇喫飽 Structured Streaming
目錄 Structured Streaming 曲折發展史 Spark Streaming Structured Streaming 主要優勢 編程模型 ●核心思想 ●應用場景 ●WordCount圖解 Structured Stre
原创 項目需求(基於日期的訂單指標分析)
目錄 統計2019年期間每個季度的銷售訂單筆數、訂單總額 結果圖:
原创 Oracle 錯誤疑難解決方案和總結
Ⅰ.oracle itcast Oracle 安裝自動生成sys用戶和system用戶 sys 超級用戶 具有最高權限 具有sysDBA角色,有create database權限 該用戶默認密碼是change_in_install
原创 SparkStreaming 介紹
一 Spark Streaming引入 新的場景需求 ●集羣監控 一般的大型集羣和平臺, 都需要對其進行監控的需求。 要針對各種數據庫, 包括 MySQL, HBase 等進行監控 要針對應用進行監控, 例如 Tomcat, Ngin
原创 Spark 集成 Hive
Hive查詢流程及原理 執行HQL時,先到MySQL元數據庫中查找描述信息,然後解析HQL並根據描述信息生成MR任務 Hive將SQL轉成MapReduce執行速度慢 使用SparkSQL整合Hive其實就是讓SparkSQL去加
原创 sftp 上傳文件_2
1 官方API查看地址(附件爲需要的jar) http://www.jcraft.com/jsch/ 2 api常用的方法: put(): 文件上傳 get(): 文件下載 cd(): 進入
原创 Mysql分表_短鏈接實現
業務場景 根據長鏈接生成一個短鏈接。 根據短鏈接解析出長鏈接。 實現方式 如何實現這個功能呢?也許你會考慮實現一個算法,將長鏈接轉成短鏈接,實現長短的一一對應。然後再實現逆運算,將短鏈接換算回長鏈接。當然這種算法是不可能存在的。如果有那
原创 Spark 理論
目錄 1、Spark有幾種部署方式?(重點) 2、Spark提交作業參數(重點) 3、簡述Spark on yarn的作業提交流程(重點) 4、請列舉Spark的transformation算子(不少於5個)(重點) 5、請列舉Spark
原创 Linux 傳輸工具( ftp sftp )
Ubuntu 安裝 ftp 服務器 apt-get install vsftpd 配置服務器 vim /etc/vsftpd.conf (Ubuntu) 或者 vim /etc/vsftpd/vsftpd.co
原创 用戶畫像-打標籤
目錄 標籤樣例類 標籤類 Hbase 數據源 讀取 Hbase 數據 數據寫入的Hbase
原创 Kylin_亞秒級數據預處理(單表)
目錄 測試數據表結構介紹 按照日期統計訂單總額/總數量(Hive方式) 按照日期統計訂單總額/總數量(Kylin方式) 1、創建項目(Project) 2、創建數據源(DataSource) 3、創建模型(Model) 4、創建立方體(C
原创 Kylin_亞秒級數據預處理(多表)
目錄 按照訂單渠道名稱統計訂單總額/總數量 1、創建Model 2、創建Cube 3、執行構建、等待構建完成 4、執行SQL查詢,獲取結果 按照訂單渠道名稱統計訂單總額/總數量 1、創建Model 指定關聯表、關聯條件 添加 查找 第
原创 解決緩慢變化維—拉鍊表
什麼是緩慢變化維(SCD)、 1、緩慢變化維簡介 緩慢變化維,簡稱SCD(Slowly Changing Dimensions) 一些維度表的數據不是靜態的,而是會隨着時間而緩慢地變化(這裏的緩慢是相對事實表而言,事實表數據變化的速度比維
原创 Mysql導入Source數據庫
首先要確保數據庫存在,如果不存在則創建 方法1 source [root@node002 ~]# mysql -uroot -p123456 Welcome to the MySQL monitor. Commands end wit
原创 數倉的含義
目錄 1. 什麼是 數倉? 2.數據倉庫和數據集市的概念 3.數據倉庫