原创 Spark+Hbase 億級流量分析實戰(數據結構設計)

背景 靠文章生存的大廠們簡書/小紅書/CSDN(PS:好吧你們仨記得給我廣告費),對優秀的文章進行大數據分析的工作必不可以少了,本系列文章將會從關於文章的各個維度進行實戰分析,這系列文章新手可藉着踏入大數據研發的大門,至於大數據的

原创 Scala Slick LocalDateTime與Timestamp轉換

在使用Slick操作數據庫的時候、如果使用LocalDateTime類型字段、則在數據庫中使用的是varchar類型、但是我們需要使用更嚴格的時間類型Timestamp。這就需要在這兩個類型之間來回切換了。 使用方法 導入包

原创 hdfs 磁盤存儲不平衡、重新平衡操作

在日積月累的操作中、可能會存在有些磁盤的存儲分佈得不是很平衡、這就給數據多的那一臺機子帶來壓力、因爲很多的讀取都是在同一臺機子上、所以我們需要重新平衡一下存儲、也就是把存儲多的機子上的數據轉移到其它機子。這裏我們使用hdfs提供

原创 Play2.7 websocket 使用方法

play2.7x 中的websocket文檔少得可憐、看來得適當完善一下子了、這裏給大家記錄一下一些使用過程吧。 使用 WebController.scala Singleton class SocketController

原创 Scala case class 動態copy

在scala中、case class 確實好用、但是隻支持指定字段名稱使用copy複製、在動態情場中、一個類的字段可是非常多的、如何處理這樣的問題?這就得使用到反射功能了、下面已經給大家寫好了。 CopyUtil.scala

原创 Hbase - 表導出CSV數據

新鮮文章,昨天剛經過線上驗證過的,使用它導出了3億的用戶數據出來,花了半個小時,性能還是穩穩的,好了不吹牛皮了,直接上代碼吧。 MR 考查了Hbase的各種MR,沒有發現哪一個是能實現的,如果有請通知我,我給他發紅包。 所以我

原创 Selenium 人工智能操作工具

嘿,小夥伴們週末有沒有像 大豬 一樣在加班的,今天分享一個超有意思的東西 Selenium 自動化工具,不是說的好人工智能操作?大豬 什麼時候也變成標題黨了嘛,所謂的自動化不就屬於人工智能操作嘛,把平時繁瑣的事都交給它去做,這麼一說

原创 Spark+Hbase 億級流量分析實戰(小巧高性能的ETL)

在上一篇文章 大豬 已經介紹了日誌存儲設計方案 ,我們數據已經落地到數據中心上了,那接下來如何ETL呢?畢竟可是生產環境級別的,可不能亂來。其實只要解決幾個問題即可,不必要引入很大級別的組件來做,當然了各有各的千秋,本文主要從 易懂

原创 Spark+Hbase 億級流量分析實戰( 留存計算)

這篇已經是本系列文章的第五篇了,上一篇大豬已經介紹 PV/UV 的實現方式以及程序的計算邏輯,本篇大豬繼續爲小夥伴介紹 留存 ,看在Spark+Hbase的架構中到底是怎麼實現這種指標的。 大豬 的習慣就是能上圖就儘量不BB,好的

原创 Spark + Hbase 百億級流量實時分析統計 之 經典指標PV/UV設計與實現

作爲一個百億級的流量實時分析統計系統怎麼能沒有 PV / UV 這兩經典的超級瑪麗亞指標呢,話說五百年前它倆可以鼻祖,咳咳…,不好意思沒忍住,迴歸正文,大豬 在上一篇已經介紹了 小巧高性能ETL程序設計與實現 了,到現在,我們的數據

原创 Spark + Hbase 百億級流量實時分析統計 之 日誌存儲設計方案

背景 接着上篇文章 百億級流量實時分析統計 - 數據結構設計 我們已經設計好了日誌的結構,接下來我們就準備要開始擼代碼了,我最喜歡這部分的環節了,可是一個上來連就擼代碼的程序肯定不是好程序員,要不先設計設計流程圖?那來吧!!! 流程

原创 Spark + Hbase 百億級流量實時分析統計 之 數據結構設計

背景 靠文章生存的大廠們簡書/小紅書/CSDN(PS:好吧你們仨記得給我廣告費),對優秀的文章進行大數據分析的工作必不可以少了,本系列文章將會從關於文章的各個維度進行實戰分析,這系列文章新手可藉着踏入大數據研發的大門,至於大數據的大佬

原创 Mysql upsert 使用技巧

mongo中會有upsert,Mysql只能使用DUPLICATE KEY UPDATE來實現,發現數據條數減少,而且數據不正確。經過進一步的排查,發現使用DUPLICATE KEY UPDATE是有技巧的。 技巧 DUPLICA

原创 Hbase 建表

TableName table = TableName.valueOf(tableName); TableDescriptorBuilder tableDesc = TableDescriptorBuilder.newBui

原创 Java與Scala 使用Maven混合編譯打包

在SpringBoot上使用spark的時候會遇到的混合編譯問題,在java代碼中打包會找不到scala定義的包,即可參考使用如下配置。 使用配置 <build> <plugins> <plugi