台部落无尴尬不青春

更多最新文章請文末掃碼關注公衆號查看 1、案例背景介紹互聯網電商往往需要對訂單商品銷量實時統計，用於實時大屏展示，庫存銷量監控等等。本文主要介紹如何通過flink sql的方式進行商品實時銷量的統計。業務流程介紹： 1.使用ott

2020-04-04 04:26:52

客戶端埋點日誌進行解析時需要獲取地區編碼和名稱，程序是通過flink分佈式緩存將地區編碼和名稱數據傳到每個task節點進行讀取。本地測試時沒有問題，但是部署到集羣數據寫入hdfs後發現中文亂碼，部分代碼如下： //設置分佈式緩存文件

2020-03-31 04:55:16

一、前言數據抽取是數據倉庫ETL開發的重要環節，對於異構數據源的同步有多種工具，也會遇到各種問題。本文主要總結作者工作中同步mongo數據到hive的方式和經驗。二、mongo to hive方式選擇 mongo同步數據到hive

2020-03-08 21:43:03

更多技術文章請關注公衆號：前言數據模型就是數據的組織和存儲方法，它強調從業務，數據存取，和使用角度合理的存儲數據。模型設計是數據倉庫的必備技能和主要工作之一。模型設計的好壞直接影響數倉整體的性能，存儲成本，使用效率，數據質量等等。

2020-03-08 21:43:03

HBase1.0.1.1 API與原來有所不同 1 package com.felix.hbaseapi_test; 2 3 /* 這是舊版的 API操作 */ 16 public cl

2018-09-01 22:14:36

本文轉發自Jason’s Blog，原文鏈接　http://www.jasongj.com/2015/01/02/Kafka深度解析背景介紹 Kafka簡介　　Kafka是一種分佈式的，基於發佈/訂閱的消息系統。主要設計目標如

2018-09-01 22:14:36

引言：　　關於數據庫優化，網上有不少資料和方法，但是不少質量參差不齊，有些總結的不夠到位，內容冗雜。　　偶爾發現了這篇文章，總結得很經典，文章流量也很大，所以拿到自己的總結文集中，積累優質文章，提升個人能力，希望對大家今後開發中也有

2018-09-01 22:14:36

基於spark2.1的官方文檔翻譯而來 Overview structured streaming是一種基於Spark SQL引擎構建的可擴展且容錯的流處理引擎。您可以以靜態數據表示批量計算的方式來表達流式計算。 Spark SQL引擎

2018-09-01 22:14:36

1、運行rddpeople.registerTempTable("rddTable")時報錯錯誤信息： Exception in thread "main" scala.reflect.internal.MissingRequireme

2018-09-01 22:14:36

1、提交應用(Submitting Applications) 用spark的bin目錄下的spark-submit腳本在集羣上啓動應用。它可以通過統一的接口來管理spark所支持的cluster managers，所以不需要爲每一個應用

2018-09-01 22:14:36

上文Spark 核心 RDD 剖析（上）介紹了 RDD 兩個重要要素：partition 和 partitioner。這篇文章將介紹剩餘的部分，即 compute func、dependency、preferedLocation comp

2018-09-01 22:14:36

本文將通過描述 Spark RDD 的五大核心要素來描述 RDD，若希望更全面瞭解 RDD 的知識，請移步 RDD 論文：RDD：基於內存的集羣計算容錯抽象 Spark 的五大核心要素包括： partitionpartitionercom

2018-09-01 22:14:34

本文章轉載他人，文中HConnection類和HConnectionManager在新版hbase已經棄用，換成了Connection和ConnectionFactory，但是HTablePool棄用原理一樣。 ---------

2018-09-01 22:14:34

1基礎介紹在HBase中，大部分的操作都是在RegionServer完成的，Client端想要插入，刪除，查詢數據都需要先找到相應的 RegionServer。0.96版本之前hbase內置兩張表'.META.'，'-ROOT-'

2018-09-01 22:14:34