台部落dounine

背景靠文章生存的大廠們簡書/小紅書/CSDN(PS:好吧你們仨記得給我廣告費)，對優秀的文章進行大數據分析的工作必不可以少了，本系列文章將會從關於文章的各個維度進行實戰分析，這系列文章新手可藉着踏入大數據研發的大門，至於大數據的

2020-06-09 20:36:00

在使用Slick操作數據庫的時候、如果使用LocalDateTime類型字段、則在數據庫中使用的是varchar類型、但是我們需要使用更嚴格的時間類型Timestamp。這就需要在這兩個類型之間來回切換了。使用方法導入包

2020-02-25 14:15:03

在日積月累的操作中、可能會存在有些磁盤的存儲分佈得不是很平衡、這就給數據多的那一臺機子帶來壓力、因爲很多的讀取都是在同一臺機子上、所以我們需要重新平衡一下存儲、也就是把存儲多的機子上的數據轉移到其它機子。這裏我們使用hdfs提供

2020-02-25 14:15:03

play2.7x 中的websocket文檔少得可憐、看來得適當完善一下子了、這裏給大家記錄一下一些使用過程吧。使用 WebController.scala Singleton class SocketController

2019-09-03 09:01:48

在scala中、case class 確實好用、但是隻支持指定字段名稱使用copy複製、在動態情場中、一個類的字段可是非常多的、如何處理這樣的問題？這就得使用到反射功能了、下面已經給大家寫好了。 CopyUtil.scala

2019-08-29 09:48:15

新鮮文章，昨天剛經過線上驗證過的，使用它導出了3億的用戶數據出來，花了半個小時，性能還是穩穩的，好了不吹牛皮了，直接上代碼吧。 MR 考查了Hbase的各種MR，沒有發現哪一個是能實現的，如果有請通知我，我給他發紅包。所以我

2019-07-10 10:33:43

嘿，小夥伴們週末有沒有像大豬一樣在加班的，今天分享一個超有意思的東西 Selenium 自動化工具，不是說的好人工智能操作？大豬什麼時候也變成標題黨了嘛，所謂的自動化不就屬於人工智能操作嘛，把平時繁瑣的事都交給它去做，這麼一說

2019-03-31 09:15:01

在上一篇文章大豬已經介紹了日誌存儲設計方案，我們數據已經落地到數據中心上了，那接下來如何ETL呢？畢竟可是生產環境級別的，可不能亂來。其實只要解決幾個問題即可，不必要引入很大級別的組件來做，當然了各有各的千秋，本文主要從易懂

2019-03-30 09:31:43

這篇已經是本系列文章的第五篇了，上一篇大豬已經介紹 PV/UV 的實現方式以及程序的計算邏輯，本篇大豬繼續爲小夥伴介紹留存，看在Spark+Hbase的架構中到底是怎麼實現這種指標的。大豬的習慣就是能上圖就儘量不BB，好的

2019-03-30 09:31:33

作爲一個百億級的流量實時分析統計系統怎麼能沒有 PV / UV 這兩經典的超級瑪麗亞指標呢，話說五百年前它倆可以鼻祖，咳咳…，不好意思沒忍住，迴歸正文，大豬在上一篇已經介紹了小巧高性能ETL程序設計與實現了，到現在，我們的數據

2019-03-28 09:39:23

背景接着上篇文章百億級流量實時分析統計 - 數據結構設計我們已經設計好了日誌的結構，接下來我們就準備要開始擼代碼了，我最喜歡這部分的環節了，可是一個上來連就擼代碼的程序肯定不是好程序員，要不先設計設計流程圖？那來吧！！！流程

2019-03-25 09:38:20

背景靠文章生存的大廠們簡書/小紅書/CSDN(PS:好吧你們仨記得給我廣告費)，對優秀的文章進行大數據分析的工作必不可以少了，本系列文章將會從關於文章的各個維度進行實戰分析，這系列文章新手可藉着踏入大數據研發的大門，至於大數據的大佬

2019-03-24 09:07:34

mongo中會有upsert，Mysql只能使用DUPLICATE KEY UPDATE來實現，發現數據條數減少，而且數據不正確。經過進一步的排查，發現使用DUPLICATE KEY UPDATE是有技巧的。技巧 DUPLICA

2018-10-27 00:41:58

TableName table = TableName.valueOf(tableName); TableDescriptorBuilder tableDesc = TableDescriptorBuilder.newBui

2018-10-19 06:51:01

在SpringBoot上使用spark的時候會遇到的混合編譯問題，在java代碼中打包會找不到scala定義的包，即可參考使用如下配置。使用配置 <build> <plugins> <plugi

2018-10-09 06:49:40