DataOps的定義
數據資產和數據產品的訪問需求在與日俱增,想在市場中獲得競爭力,DataOps是一門必不可少的學科。數據(和管理)團隊和他們的平臺無法跟上裝備了DevOps的團隊對他們提需求的節奏,這種狀態推動了(數據團隊的)DataOps發展。
簡而言之,DataOps將數據科學家、分析師、開發人員和運營人員凝聚在一起,共同致力於從設計階段到生產支持的整個產品/服務生命週期。
DataOps VS DevOps
DataOps並不僅僅是遵循DevOps原理並將其應用於數據分析。雖然這樣可以達到類似的提高質量和縮短週期的目的,但本質上並不是一回事。
DevOps依靠自動化來加快構建生命週期。目標是通過按需分配IT資源並通過自動化代碼集成、測試和部署來實現連續且持續的軟件集成與交付。
換句話說,DevOps使開發和運維團隊合作,併爲他們提供工具,使他們的工作能更好、更高效。產生的效果是減少了部署時間、更快地將產品交付市場、減少了代碼問題且縮短了解決問題所需的時間。
DevOps使頂級公司可以將發佈時間從幾個月縮短到幾分鐘,甚至在某些情況下只需幾秒鐘。這爲他們提供了難以置信的競爭優勢,而在當今快節奏的經濟中則顯得非常必要。
本質上,Amazon和Google這樣的公司每天能夠多次發佈軟件則要歸功於DevOps。沒有DevOps,這些都不可能實現。
DataOps的目標則是提高數據分析效率。爲此,DataOps採用敏捷開發原則,從而提高數據團隊和用戶的效率和效力。
這意味着數據團隊可以以較短週期的增量方式即Sprints,發佈新的分析數據,從而大大減少等待時間。研究還表明,這種敏捷開發方式,在軟件開發項目完成時,問題變得更少了。在數據領域中,這意味着公司可以更快地響應客戶需求和痛點,從而顯著提高交付價值的速度。
然而,與DevOps相比,DataOps還多一個不斷變化的附加組件:數據流水線。原始數據從數據流水線一側進入後進行處理,在另一側以不同的形式(報告,視圖,模型等)進行展示。該數據流水線通常被稱爲數據生產者/消費者模型。
在數據流中,DataOps扮演着至關重要的角色,因爲它指導、監控並管理數據流水線。統計過程控制(SPC:確保統計信息保持在可接受的範圍內,從而顯着提高數據分析的質量、效率和透明度)是用於實現此目的的功能更強大的工具之一。
DataOps結合了DevOps、敏捷開發和統計過程控制三者的優點。
DataOps之用途
數據有價值,且比以往任何時候都更有價值,許多公司也紛紛認識到這一點。數據本身可以成爲產品。但是,只有在公司有效收集、處理並將其轉化爲可行動洞見(actionable insights - 指可用於實際指導公司行爲的商業洞見)時,數據纔會真正體現其價值。
問題在於,如何有效的收集、分析數據,一般的公司對此並不清楚。基於“我們將廣泛收集數據,然後弄清楚該如何處理”的原則,公司通常採取這樣一種看似無所不包的方法,而這樣做弊大於利。
公司隨後組建一個數據團隊,想當然的認爲,這個團隊可以奇蹟般地將垃圾變成黃金。這樣做通常所需的工作量比實際需要多得多,且很難能達到預期效果。當然,這幾乎不可能按時提供可行動洞見,從而滿足DevOps團隊努力將其代碼推向市場的需求。
DataOps結束了這個混亂的局面,並將其變成一個平滑的過程,數據團隊也無需花費時間來解決這些問題。他們不用浪費時間,嘗試將不良原始數據變成有用的數據。相反,他們可以專注於重要的事情,即提供可行動洞見。
DataOps能確保輸入原始數據的可用性,保證結果的準確性,注重人員價值及共同合作的價值,使數據團隊始終處於公司戰略目標的中心。畢竟,他們再也不需要花費幾個月的時間出成果,而且與DevOps團隊一樣高效。
DataOps演進史
2014年6月,InformationWeek的特約編輯Lenny Liebmann首次在“ DataOps對大數據成功至關重要的三個原因”中介紹了DataOps。AndyPalmer隨後在Tamr推廣了這些術語。
DataOps在2017年經歷了重大發展。因此,隨着企業對該學科的興趣不斷增長,催生了強大的供應商網絡的發展,這些供應商提供各種相關產品和服務的開發和銷售。
任何DataOps平臺都依賴於五個基本功能組件,他們分別是:
-
數據管道編排:DataOps需要基於圖形的指導性工作流,其中涉及與數據集成、數據訪問、可視化和建模相關的所有步驟;
-
測試和生產質量:DataOps不僅測試和監控所有生產數據的質量,而且還測試部署階段中任何更改的代碼;
-
自動化部署:DataOps不斷將從開發環境中獲取代碼和配置,遷移至生產環境;
-
數據科學模型部署和沙箱管理:DataOps還負責創建可複製的開發環境,並將模型移入生產環境;
-
其他需要支持的功能:代碼和artifact存儲、參數和安全密鑰存儲、分佈式計算、數據虛擬化、版本控制和測試數據管理。
爲滿足上述需求,2017年有大量產品和服務投入市場。該數字在2018年繼續大幅增長。
DataOps儘管得到推廣,但仍然是一個新概念,尚未實現廣泛應用。DataOps的廣泛應用,可能會受到可用的框架及解決方案的限制,同時也受限於缺乏應遵循的明確指導原則。
即便如此,這仍是一次市場革命的開始,因爲各家公司都嘗試對此概念進行各自的解釋。數據科學家和IT專家仍然難以確定應從何處開始以及如何定義成功指標。
論DataOps的安全性
一份對451 調研結果的報告顯示,DataOps可以加快全球企業的創新速度,而且還可以幫助他們解決嚴重的安全及合規性問題,因此他們紛紛轉向DataOps。實際上,有66%的受訪者表示,更高的安全性和更好的合規性,是他們採用DataOps的首要原因。
由於許多企業都經歷過數據泄露問題,他們比以前更重視數據安全。同時監管機構在數據隱私方面也面臨着更大的壓力。因此,公司轉向DataOps來開發和實施一致的數據治理策略,同時,允許數據在完全安全的同時快速流動。
隨着需要訪問數據的人數增加,68%的受訪者表示,保護同內部和外部用戶共享的數據非常重要。
新聞中大多數數據泄露,通常是由外部威脅造成的。然而,事實上,最主要的威脅往往來自內部用戶。雖然,不一定是有意而爲之,往往疏忽會導致嚴重的後果。這也歸因於組織沒有統一一致的安全策略以及實施這些策略的方法。
只要數據擁有正確的數據平臺,DataOps便可以提供確保數據安全所需的同類安全方法,而不管訪問者是誰,無論使用哪種技術,這種統一的方法都可以在組織的所有領域起作用。
DataOps宣言
支持DataOps的組織和人員發佈了一個宣言,該宣言包含十八條原則,總結了踐行DataOps的最佳實踐、理念、目標、使命和價值觀。
宣言將個人及個人間的相互行爲,置於流程和工具之上。他們專注於工作分析,而不是全面的文檔。他們提倡客戶協作,而不是專注於合同談判。他們提倡實驗、迭代和反饋,而不是花費大量時間進行前期設計。他們還認爲應該消除孤立的責任,倡導跨職能的運營所有權。
DataOps宣言細則如下:
-
客戶至上,DataOps的最高優先事項是通過快速、持續交付有價值的洞見來滿意客戶。
-
將價值置於產生的洞見,這也是數據分析性能的實際指標。
-
擁抱變化,包括客戶需求的不斷變化,並與客戶面對面交談。
-
Analytics(分析)涉及具有不同角色、技能、頭銜和偏愛工具的人員團隊。
-
與客戶及運營部門的協作,貫穿於整個項目的每個階段,每個時間節點。
-
自組織帶來最佳的見解、架構、算法、設計和需求。
-
專注於創建可持續和可擴展的團隊和流程,而不是英雄主義。
-
定期進行自我反省以提高運營績效。
-
分析團隊依靠各種工具來生成代碼和配置,並描述如何根據數據生成洞見。
-
貫穿於始末的數據、代碼、工具、環境和團隊的編排對於成功至關重要。
-
一切都必須進行版本控制,因爲需要可重複的結果。
-
通過提供一次性環境來最小化分析團隊成員的實驗成本。
-
簡單,也被稱爲儘可能少做無用的工作,對於成功和提高敏捷性至關重要。
-
DataOps的基本概念是專注於在產生洞見方面不斷提高效率。
-
分析流水線的基礎是必須自動檢測數據、配置和代碼中的異常和安全問題。它還應提供持續的反饋,從而避免錯誤。
-
應不斷測量質量、性能和安全性措施以識別任何可能的變化。
-
避免重複以前所做的工作以提高效率。
-
最大限度地減少將客戶需求轉化爲洞見所需的時間與精力,並將這些洞見變現,發佈爲可複製的生產過程,最後實現洞見的產品化。
論DataOps之未來
儘管DataOps尚未得到廣泛應用,但其未來是顯而易見的:DataOps將會被大浪淘沙而得以留存並廣泛應用。與DevOps一樣,我們將看到相關團隊和職位的價值將不斷上升。
例如,在進行敏捷開發之前,發佈工程師的價值被大大低估了,尤其是與軟件開發人員相比。而現在,實施DevOps的公司則充分尊重發布工程師的價值。此外,衆所周知,DevOps工程師是軟件工程中收入最高的職位之一。DevOps工程師非常難招,即使他們沒有大學學位,只要他們擁有適當的知識和經驗,公司也願意聘用。這也正在成爲一個趨勢。
DataOps工程師的職位可能會發生類似的事情。員工不論頭銜,通過實施可靠的DataOps策略,數據分析師、數據工程師和數據科學家都可以得到更大的重視。然而,這可能需要一段時間才能實現。DataOps仍然是一個新概念,儘管圍繞它進行了很多討論,但仍存在一些侷限和限制,阻礙其廣泛應用。
當然,隨着DataOps越來越流行,這些侷限和限制會逐漸消失。在不久的將來,我們可能會看到更多有關可以成功實施的原則和準則的討論。正如DevOps在IT基礎架構的管理中扮演着至關重要的角色一樣,DataOps也在改變數據可用、共享和集成的方式。隨着每天收集和/或生產的數據越來越多,有效地管理數據成爲越來越多企業的必然選擇。