原创 一篇喫飽 Structured Streaming

目錄  Structured Streaming 曲折發展史 Spark Streaming Structured Streaming 主要優勢 編程模型 ●核心思想 ●應用場景  ●WordCount圖解 Structured Stre

原创 項目需求(基於日期的訂單指標分析)

  目錄   統計2019年期間每個季度的銷售訂單筆數、訂單總額 結果圖:

原创 Oracle 錯誤疑難解決方案和總結

Ⅰ.oracle itcast   Oracle 安裝自動生成sys用戶和system用戶 sys 超級用戶  具有最高權限 具有sysDBA角色,有create database權限 該用戶默認密碼是change_in_install

原创 SparkStreaming 介紹

一  Spark Streaming引入 新的場景需求 ●集羣監控 一般的大型集羣和平臺, 都需要對其進行監控的需求。 要針對各種數據庫, 包括 MySQL, HBase 等進行監控 要針對應用進行監控, 例如 Tomcat, Ngin

原创 Spark 集成 Hive

 Hive查詢流程及原理 執行HQL時,先到MySQL元數據庫中查找描述信息,然後解析HQL並根據描述信息生成MR任務 Hive將SQL轉成MapReduce執行速度慢   使用SparkSQL整合Hive其實就是讓SparkSQL去加

原创 sftp 上傳文件_2

    1 官方API查看地址(附件爲需要的jar) http://www.jcraft.com/jsch/   2 api常用的方法: put():      文件上傳 get():      文件下載 cd():       進入

原创 Mysql分表_短鏈接實現

業務場景 根據長鏈接生成一個短鏈接。 根據短鏈接解析出長鏈接。 實現方式 如何實現這個功能呢?也許你會考慮實現一個算法,將長鏈接轉成短鏈接,實現長短的一一對應。然後再實現逆運算,將短鏈接換算回長鏈接。當然這種算法是不可能存在的。如果有那

原创 Spark 理論

目錄 1、Spark有幾種部署方式?(重點) 2、Spark提交作業參數(重點) 3、簡述Spark on yarn的作業提交流程(重點) 4、請列舉Spark的transformation算子(不少於5個)(重點) 5、請列舉Spark

原创 Linux 傳輸工具( ftp sftp )

Ubuntu 安裝 ftp 服務器      apt-get  install   vsftpd 配置服務器  vim  /etc/vsftpd.conf  (Ubuntu)   或者 vim /etc/vsftpd/vsftpd.co

原创 用戶畫像-打標籤

目錄   標籤樣例類 標籤類  Hbase 數據源 讀取 Hbase 數據 數據寫入的Hbase

原创 Kylin_亞秒級數據預處理(單表)

目錄 測試數據表結構介紹 按照日期統計訂單總額/總數量(Hive方式) 按照日期統計訂單總額/總數量(Kylin方式) 1、創建項目(Project) 2、創建數據源(DataSource) 3、創建模型(Model) 4、創建立方體(C

原创 Kylin_亞秒級數據預處理(多表)

目錄 按照訂單渠道名稱統計訂單總額/總數量 1、創建Model 2、創建Cube 3、執行構建、等待構建完成 4、執行SQL查詢,獲取結果 按照訂單渠道名稱統計訂單總額/總數量 1、創建Model 指定關聯表、關聯條件 添加 查找 第

原创 解決緩慢變化維—拉鍊表

什麼是緩慢變化維(SCD)、 1、緩慢變化維簡介 緩慢變化維,簡稱SCD(Slowly Changing Dimensions) 一些維度表的數據不是靜態的,而是會隨着時間而緩慢地變化(這裏的緩慢是相對事實表而言,事實表數據變化的速度比維

原创 Mysql導入Source數據庫

首先要確保數據庫存在,如果不存在則創建 方法1 source [root@node002 ~]# mysql -uroot -p123456 Welcome to the MySQL monitor.  Commands end wit

原创 數倉的含義

目錄   1.  什麼是 數倉? 2.數據倉庫和數據集市的概念  3.數據倉庫