給王心凌打Call的，原來是神奇的智能湖倉

原創

博客園團隊

2022-06-15 13:30

圖文原創：譚婧（王❤凌老粉）

“爺青回”

“我們只是老了，並沒有死。”

譚老師作爲老粉，熱烈慶祝“甜心教主”王❤凌成爲現象級翻紅頂流。

只要地球不爆炸，她的數據就一個都不能丟，還得用好了。

那爲王❤凌從頭開發一套大數據與智能系統吧？

答案，沒必要。

不能把精力花在和IT基礎設施你死我活地纏鬥中。

就好比，當你的目的是去開會，那就不能去搭建會議室。

所以，這邊建議電視臺：

把所有數據放到公有云上，使用無服務器架構（Serverless），將項目命名爲：

“王❤凌老粉打Call數據項目”

每一家雲廠商都能拿出足夠的資料來證明自己的產品纔是最好的，我們不在此處爭論。

方案技術選型上，一步到位，挑選一朵最大的，全球部署的公有云，方便❤凌文化出海。

用亞馬遜公有云，全方位無死角給❤凌打Call。

首先，王❤凌的視頻，音頻，電視劇，演唱會等大批量歷史數據，不存放在本地IDC上。

現在疫情，供應鏈緊張，硬件採購週期太長，電視臺的審批流程也太長，不能等。

直接將❤凌的所有數據妥善存儲在Amazon S3 數據湖中。

不同種類的數據都能存，量大量少都能存，而且不會丟，永遠在數據湖裏，安全，放心。

技術上，這些文件存進S3數據湖自動成爲數據API，方便調用，標準一致，取用方便。

怪不得，有人稱S3爲事實上的雲計算對象存儲標準。

沒有數據指導的業務，怎麼可能做好？

領導着急看數，數據分析人員更着急，這個情況不允許發生，立刻配備雲數據倉庫Amazon Redshift。

聯合查詢的功能不能少：

比如，某電視臺數據分析專家想查手機APP平臺和大屏電視機頂盒觀看平臺的用戶之間的聯繫。

Redshift聯合查詢可以直接從手機App平臺（已入湖），大屏電視機頂盒平臺（基於數據庫），獲取數據的聯繫。

晚上九點，晚飯後，某一批用戶在電視上反覆觀看王❤凌現場舞蹈（產生的行爲數據存在數據庫中，包括當時產生的很多標籤）。

然後，我們直接查詢一批用戶在手機App中的觀看過和這些行爲數據中的標籤相關的視頻（這些數據存在數據湖裏），比如標籤裏有“甜心教主” “電視劇”。

這兩類數據存放在不同的地方，一個在數據庫，一個在數據湖。如果之前沒看過相關視頻（“王❤凌男孩跳舞熱榜”），就向手機App端推送。

實時智能分析必不可少：

先將歷史數據和新鮮（實時）兩種數據同時接入雲數據倉庫Redshift。

Amazon Redshift ML 使數據分析師和數據庫開發人員可以在Redshift 數據倉庫中使用熟悉的 SQL 命令輕鬆創建、訓練和應用機器學習模型。

實時看板必不可少：

某電視臺，沒有設置王❤凌線上投票，實在令人遺憾，氛圍感差些些。

建議電視臺開展線上投票，並公開實時看板，讓全國粉絲瞭解投票熱度整體進展，即時知道投票效果。

所有產生的實時打榜數據，接入流式數據管道Amazon Kinesis，數據像水流一樣一直灌進來。

並不是所有人時時刻刻在打榜，水流有大有小，而無服務器架構的Kinesis可以基於水流的大小即時彈性擴縮，無需關心流量高峯低谷，安心接入。

Redshift創建流式物化視圖對接Kinesis，結合數據倉庫內歷史數據生成實時看板。

那些不能從電視臺數據倉庫裏直接取數的外部團隊，比如，抖音和快手，辦法是電視臺藉助Amazon Redshift Data Sharing的功能，將數據安全共享。

查詢併發高峯的時刻，Redshift併發擴展能力也能輕鬆應對。

總而言之，數據倉庫性能越高越好，價格越便宜越好。

這就要靠雲廠商的技術手段了，壓力給到亞馬遜雲科技這邊。

“王❤凌老粉打Call數據項目”項目，危險行爲識別必不可少：

用日誌分析服務Amazon OpenSearch，做鏈路追蹤，監視黑產惡意刷榜，確保公平。

“王❤凌老粉打Call數據項目”項目，數據庫選型如下：

1. 如果王❤凌開直播，刷禮物的交易數據，先放入極致彈性的Amazon DynamoDB中，再將歷史數據同步到Redshift數據倉庫。

2. 手機APP用戶瀏覽王❤凌視頻的行爲，記錄等，也得存入非關係型數據庫DynamoDB中。

本方案，爲突發狀況，準備了預案。

突發情況一：

突然，某天，要查詢一遍過去十年的王❤凌數據，可能幾十PB。

方法一：這種使用頻率極低，又要分析海量數據，成本還要低的查詢，就用Amazon Athena。

方法二，搭建一個Hadoop系統。但是，爲了幹這件事情，耗費的人力物力非常可怕，從頭幹起大約兩個月。

在Athena裏，查詢按次按量計費，一定要查詢的話，這筆費用可以出。

突發情況二：

“王❤凌男孩跳舞熱榜”現象，讓人始料不及。跟風創作，大量上傳熱舞視頻。

實時處理這些視頻並提取特徵，爲下一階段分析提供數據，得用什麼技術呢？

答案是，流式數據分析技術，Amazon Kinesis Analytics。

另外，歷史數據怎麼處理呢？

答案是，使用託管大數據平臺Amazon EMR處理大規模歷史數據，爲❤凌的每一個歷史視頻都打上標籤。同時EMR Serverless以極簡的開發來處理數據，同時實現最低的成本。

最後強調一句，亞馬遜雲科技Serverless無服務器架構，很黑科技。

初聽還是小學生，再聽已是社會人，支持❤凌，致我們逝去的青春。

“王❤凌老粉打Call數據項目”方案的技術選型部分就介紹完了。

剛剛提到很多亞馬遜雲科技產品服務，大家感興趣的話也可以掃碼進入官網閱讀，一起學習成長，歡迎交流討論~

來源：公衆號親愛的數據

發表評論

所有評論

還沒有人評論，想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.

相關文章

致遠OA及相關OA系統集成與二次開發

發現一個名爲臺部落的繁體字網站，一直採集我的個人博客及個人網站的網站，並且在他自己的網站上面創建了一個跟我名稱的賬戶，並把文章標記爲“原創”且沒有標註原文鏈接。實在是無恥至極。在此作出聲明，本人的文章的發佈地址爲lrach.com（龍淵個

2024-04-20 14:33:53

EXCEL公式使用總結

1.ROUND 四捨五入的用法(ROUNDUP 向上取整 ROUNDDOWUN 向下取整)

菜鳥你慢慢飛

2024-04-20 14:31:13

常見UserAgent整理

前言 UserAgent作爲客戶端與服務器之間交互的重要標識，對於瞭解用戶設備信息、優化用戶體驗以及網站或應用的兼容性測試等方面都具有重要的意義。通過解析不同的UserAgent，我們可以更好地理解用戶的需求和習慣，提供更個性化、優質的服務

2024-04-20 14:23:32

vscode 的數據庫可視化插件

https://blog.csdn.net/youyudehan/article/details/133357915

張博的博客

2024-04-20 14:21:12

【Python】安裝配置gym

gym是python中的一個強化學習環境，想要完整配置並跑起來坑還是比較多的。下面記錄一下Windows完整安裝過程，Linux下過程基本類似。 1. 執行pip install gym直接安裝的是0.26.2版本，網上常見的代碼無法兼容

2024-04-20 14:12:21

十六進制字符串每隔32個字母換行顯示

//每32個字節換行打印 public static void formatPrint(String hexStr){ int no = 0; int length = hexStr.length(); for (

2024-04-20 14:11:11

前端使用 Konva 實現可視化設計器（6）

請大家動動小手，給我一個免費的 Star 吧~ 這一章處理一下複製、粘貼、刪除、畫布歸位、層次調整，通過右鍵菜單控制。 github源碼 gitee源碼示例地址複製粘貼複製粘貼（通過快捷鍵） // 複製暫存 pasteC

2024-04-20 14:09:11

遠程管理HP筆記本

http://t.csdnimg.cn/A8JZl

2024-04-20 14:07:01

使用純c#在本地部署多模態模型，讓本地模型也可以理解圖像

之前曾經分享過純c#運行開源本地大模型Mixtral-8x7B 當時使用的是llamasharp這個庫和Mixtral的模型在本地部署和推理，前段時間我看到llamasharp更新到了0.11.1版本，可以支持今年2月份開源的 llava-

2024-04-20 14:06:31

ROS2筆記6--ROS2常用命令工具

1、ros2 pkg create 功能：創建功能包，創建時指定包名、編譯方式、依賴項等格式：ros2 pkg create --build-type <ament_python> <pkg_name> ros2 pkg create :

2024-04-20 14:04:30

HttpClient 總是被添加traceparent 請求頭

最近在項目中發現，HttpClient中調用某Api總是出現403的異常，自己使用postman 調用即沒有問題，經排查是HttpClient 會自動添加traceparent請求頭 Accept-Encoding: gzip User-

2024-04-20 14:02:50

web server apache tomcat11-10-Class Loader

前言整理這個官方翻譯的系列，原因是網上大部分的 tomcat 版本比較舊，此版本爲 v11 最新的版本。開源項目從零手寫實現 tomcat minicat 別稱【嗅虎】心有猛虎，輕嗅薔薇。系列文章 web server apac

2024-04-20 14:00:50

web server apache tomcat11-08-JNDI Resources

前言整理這個官方翻譯的系列，原因是網上大部分的 tomcat 版本比較舊，此版本爲 v11 最新的版本。開源項目從零手寫實現 tomcat minicat 別稱【嗅虎】心有猛虎，輕嗅薔薇。系列文章 web server apac

2024-04-20 14:00:50

IIS 執行此操作時出錯。詳細信息:web.config 錯誤，.net core項目

一、IIS 執行此操作時出錯。詳細信息:web.config 錯誤，.net core項目運行報錯錯誤信息提示的很明確：IIS Web Core模塊問題二、解析： IIS下報錯，但是直接啓動exe文件可以正常運行。

2024-04-20 13:59:40

體系化帶你全面認識 Nginx ！

前言作爲一名前端開發人員，你是不是經常碰到領導讓你上服務器去修改 Nginx 配置，然而你會以“我是前端，這個我不會”爲理由搪塞過去呢！今天就讓我們一起告別這種尷尬，向“真正”的程序員邁進！！！如果本文對你有所幫助，請點個👍 👍 👍

2024-04-20 13:52:49

24小時熱門文章

最新文章

最新評論文章