原创 flink sql實戰案例之商品銷量實時統計
更多最新文章請文末掃碼關注公衆號查看 1、案例背景介紹 互聯網電商往往需要對訂單商品銷量實時統計,用於實時大屏展示,庫存銷量監控等等。本文主要介紹如何通過flink sql的方式進行商品實時銷量的統計。 業務流程介紹: 1.使用ott
原创 flink寫入HDFS中文亂碼
客戶端埋點日誌進行解析時需要獲取地區編碼和名稱,程序是通過flink分佈式緩存將地區編碼和名稱數據傳到每個task節點進行讀取。本地測試時沒有問題,但是部署到集羣數據寫入hdfs後發現中文亂碼,部分代碼如下: //設置分佈式緩存文件
原创 mongo to hive的實踐與優化
一、前言 數據抽取是數據倉庫ETL開發的重要環節,對於異構數據源的同步有多種工具,也會遇到各種問題。本文主要總結作者工作中同步mongo數據到hive的方式和經驗。 二、mongo to hive方式選擇 mongo同步數據到hive
原创 《維度模型系列》-1初識維度模型
更多技術文章請關注公衆號: 前言 數據模型就是數據的組織和存儲方法,它強調從業務,數據存取,和使用角度合理的存儲數據。 模型設計是數據倉庫的必備技能和主要工作之一。模型設計的好壞直接影響數倉整體的性能,存儲成本,使用效率,數據質量等等。
原创 Hbase新舊api對比
HBase1.0.1.1 API與原來有所不同 1 package com.felix.hbaseapi_test; 2 3 /* 這是舊版的 API操作 */ 16 public cl
原创 Kafka深度解析
本文轉發自Jason’s Blog,原文鏈接 http://www.jasongj.com/2015/01/02/Kafka深度解析 背景介紹 Kafka簡介 Kafka是一種分佈式的,基於發佈/訂閱的消息系統。主要設計目標如
原创 MySQL數據庫優化的八種方式(經典必看)
引言: 關於數據庫優化,網上有不少資料和方法,但是不少質量參差不齊,有些總結的不夠到位,內容冗雜。 偶爾發現了這篇文章,總結得很經典,文章流量也很大,所以拿到自己的總結文集中,積累優質文章,提升個人能力,希望對大家今後開發中也有
原创 StructuredStreaming官方文檔翻譯
基於spark2.1的官方文檔翻譯而來 Overview structured streaming是一種基於Spark SQL引擎構建的可擴展且容錯的流處理引擎。 您可以以靜態數據表示批量計算的方式來表達流式計算。 Spark SQL引擎
原创 SparkSQL的registerTempTable方法時出現錯誤MissingRequirementError
1、運行rddpeople.registerTempTable("rddTable")時報錯 錯誤信息: Exception in thread "main" scala.reflect.internal.MissingRequireme
原创 Spark提交應用(Submitting Applications)
1、提交應用(Submitting Applications) 用spark的bin目錄下的spark-submit腳本在集羣上啓動應用。它可以通過統一的接口來管理spark所支持的cluster managers,所以不需要爲每一個應用
原创 Spark 核心 RDD 剖析(下)
上文Spark 核心 RDD 剖析(上)介紹了 RDD 兩個重要要素:partition 和 partitioner。這篇文章將介紹剩餘的部分,即 compute func、dependency、preferedLocation comp
原创 Spark 核心 RDD 剖析(上)
本文將通過描述 Spark RDD 的五大核心要素來描述 RDD,若希望更全面瞭解 RDD 的知識,請移步 RDD 論文:RDD:基於內存的集羣計算容錯抽象 Spark 的五大核心要素包括: partitionpartitionercom
原创 Hbase連接池HTablePool爲何棄用
本文章轉載他人,文中HConnection類和HConnectionManager在新版hbase已經棄用,換成了Connection和ConnectionFactory, 但是HTablePool棄用原理一樣。 ---------
原创 Hbase新舊查詢過程詳解
1基礎介紹 在HBase中,大部分的操作都是在RegionServer完成的,Client端想要插入,刪除,查詢數據都需要先找到相應的 RegionServer。0.96版本之前hbase內置兩張表'.META.','-ROOT-'