原创 flink sql實戰案例之商品銷量實時統計

更多最新文章請文末掃碼關注公衆號查看   1、案例背景介紹 互聯網電商往往需要對訂單商品銷量實時統計,用於實時大屏展示,庫存銷量監控等等。本文主要介紹如何通過flink sql的方式進行商品實時銷量的統計。 業務流程介紹: 1.使用ott

原创 flink寫入HDFS中文亂碼

  客戶端埋點日誌進行解析時需要獲取地區編碼和名稱,程序是通過flink分佈式緩存將地區編碼和名稱數據傳到每個task節點進行讀取。本地測試時沒有問題,但是部署到集羣數據寫入hdfs後發現中文亂碼,部分代碼如下: //設置分佈式緩存文件

原创 mongo to hive的實踐與優化

一、前言 數據抽取是數據倉庫ETL開發的重要環節,對於異構數據源的同步有多種工具,也會遇到各種問題。本文主要總結作者工作中同步mongo數據到hive的方式和經驗。   二、mongo to hive方式選擇 mongo同步數據到hive

原创 《維度模型系列》-1初識維度模型

更多技術文章請關注公衆號: 前言 數據模型就是數據的組織和存儲方法,它強調從業務,數據存取,和使用角度合理的存儲數據。 模型設計是數據倉庫的必備技能和主要工作之一。模型設計的好壞直接影響數倉整體的性能,存儲成本,使用效率,數據質量等等。

原创 Hbase新舊api對比

HBase1.0.1.1 API與原來有所不同 1 package com.felix.hbaseapi_test; 2 3 /* 這是舊版的 API操作 */ 16 public cl

原创 Kafka深度解析

本文轉發自Jason’s Blog,原文鏈接 http://www.jasongj.com/2015/01/02/Kafka深度解析 背景介紹 Kafka簡介   Kafka是一種分佈式的,基於發佈/訂閱的消息系統。主要設計目標如

原创 MySQL數據庫優化的八種方式(經典必看)

引言:   關於數據庫優化,網上有不少資料和方法,但是不少質量參差不齊,有些總結的不夠到位,內容冗雜。   偶爾發現了這篇文章,總結得很經典,文章流量也很大,所以拿到自己的總結文集中,積累優質文章,提升個人能力,希望對大家今後開發中也有

原创 StructuredStreaming官方文檔翻譯

基於spark2.1的官方文檔翻譯而來 Overview structured streaming是一種基於Spark SQL引擎構建的可擴展且容錯的流處理引擎。 您可以以靜態數據表示批量計算的方式來表達流式計算。 Spark SQL引擎

原创 SparkSQL的registerTempTable方法時出現錯誤MissingRequirementError

1、運行rddpeople.registerTempTable("rddTable")時報錯 錯誤信息: Exception in thread "main" scala.reflect.internal.MissingRequireme

原创 Spark提交應用(Submitting Applications)

1、提交應用(Submitting Applications) 用spark的bin目錄下的spark-submit腳本在集羣上啓動應用。它可以通過統一的接口來管理spark所支持的cluster managers,所以不需要爲每一個應用

原创 Spark 核心 RDD 剖析(下)

上文Spark 核心 RDD 剖析(上)介紹了 RDD 兩個重要要素:partition 和 partitioner。這篇文章將介紹剩餘的部分,即 compute func、dependency、preferedLocation comp

原创 Spark 核心 RDD 剖析(上)

本文將通過描述 Spark RDD 的五大核心要素來描述 RDD,若希望更全面瞭解 RDD 的知識,請移步 RDD 論文:RDD:基於內存的集羣計算容錯抽象 Spark 的五大核心要素包括: partitionpartitionercom

原创 Hbase連接池HTablePool爲何棄用

本文章轉載他人,文中HConnection類和HConnectionManager在新版hbase已經棄用,換成了Connection和ConnectionFactory, 但是HTablePool棄用原理一樣。 ---------

原创 Hbase新舊查詢過程詳解

1基礎介紹   在HBase中,大部分的操作都是在RegionServer完成的,Client端想要插入,刪除,查詢數據都需要先找到相應的 RegionServer。0.96版本之前hbase內置兩張表'.META.','-ROOT-'