在 Netflix,我們對數據基礎設施進行了大量投資,這些基礎設施由數十個數據平臺、數百個數據生產者和消費者以及 PB 級的數據組成。
在許多其他組織中,管理數據基礎設施成本的有效方法是設置預算和其他嚴格的約束來限制支出。但是,由於我們數據基礎設施的高度分佈式性質,以及我們對自由和責任的重視,這些過程是反文化的,而且效率低下。
因此,我們的效率方法是提供成本透明度,並儘可能讓決策者瞭解效率背景。我們最大的優勢是有一個定製的儀表板,它可以作爲數據生產者和消費者的反饋迴路:它是 Netflix 數據用戶在成本和使用趨勢方面唯一全面的真實來源。本文詳細介紹了我們創建數據效率儀表板的方法和經驗教訓。
Netflix 的數據平臺全景
Netflix 的數據平臺大致可以分爲靜態數據和動態數據系統。靜態存儲中的數據,如 S3 數據倉庫、Cassandra、Elasticsearch 等物理存儲數據,基礎架構成本主要來自於存儲。動態數據系統,如 Keystone、Mantis、Spark、Flink 等,會帶來與處理瞬態數據相關的數據基礎設施計算成本。每個數據平臺包含數千個不同的數據對象(即資源),這些數據對象通常由不同的團隊和數據用戶擁有。
原文鏈接:【https://www.infoq.cn/article/Lv1N2KHFimzpibtqwumg】。未經作者許可,禁止轉載。