【乾貨分享】陳超:七牛雲機器數據分析平臺 Pandora 最佳實踐

編者按:
9 月 10 日晚,七牛雲主辦的「雲加數據,智驅未來」數據科學系列論壇如期舉行。在直播中,七牛雲產品與研發副總裁陳超爲我們帶來了主題爲《七牛雲機器數據分析平臺 Pandora 最佳實踐》的精彩演講。以下是演講實錄。

嘉賓簡介:
陳超,七牛雲產品與研發副總裁,負責七牛雲的產品規劃與研發體系,近年來專注於機器視覺、分佈式計算與機器學習等領域,有非常豐富的分佈式計算系統及大規模機器學習系統的設計與實現經驗,在分佈式數據庫方面也有深入研究。

今天爲大家帶來的演講主題是《七牛雲機器數據分析平臺 Pandora 最佳實踐》,在介紹 Pandora 之前,我們可以先了解七牛雲目前的整體架構。依下圖所示,圖中最下面一橫是七牛雲 cloud 的部分,包括直播雲、實時音視頻雲、攝像頭的監控雲,其中所有的數據都匯聚到脫胎於對象存儲的異構數據湖中。數據湖之上是視覺數據的分析平臺以及機器數據分析平臺。我們今天講的 Pandora 就隸屬於機器數據的分析平臺。

Pandora 在七牛雲整個版圖裏,屬於機器數據智能的這個模塊。機器數據包含幾個部分,像是 Iot 的數據、各種設備的數據都可以成爲機器數據。

什麼是機器數據

我們對它有個簡單的定義:機器數據是任何機器或者系統所產生的數據。比如說服務器產生的數據、傳感器產生的數據、還有各種應用產生的數據,包括網絡設備等等。機器數據的一個特點,它是由大量的時序的非結構化的數據組成的。對於我們處理定義的機器數據來講,沒有預先定義好的 schema,並且它的數據格式特別多,而且很難預測和定義,也就是說很難說預知是什麼樣的格式進來,或者說我預先定義好它的格式。

Pandora 的特點和採集流程

Pandora 定位作爲一個機器數據的實時分析平臺,它有哪些特點呢?
第一是 Pandora 原生支持 schema free 的數據。也就是說可以隨時動態地添加刪除字段,Pandora 更進一步地原生支持了 schema on read 的能力,所以產生的數據怎麼樣,進 Pandora 就是怎麼樣,不需要經過任何的這個加工。同時我們支持模型加速的功能。通過 SPL 分層持久化、列式存儲、CodeGen、向量計算等技術對數據模型進行迭代優化。
第二個特點是雲原生的架構,Pandora 的整個體系可以避免 ETL 加工帶來的預處理建模困難,同時計算(動態資源)和存儲(靜態資源)分離,降低成本,提高計算彈性,另外完整的熱-溫-冷數據生命週期管理,可以大幅降低存儲成本。
第三,是我們比較有特色的一個點:SPL 強大的分析表達能力。支持豐富機器學習命令,滿足大量機器數據分析及 AI 場景;同時支持 SPL 實時計算,結果導出對接系統,完成業務閉環
第四點是我們有一個強大的系統擴展能力。也就是說你可以把 Pandora 看成一個 os,在其中可以利用 Pandora 的各種原生能力,去打造你自己的 APP 生態系統,SDK 支持對於平臺的可視化系統、業務組織形式進行可插拔擴展。同時 Pandora 不僅可以支持 SQL,更能夠通過 Python, Go+ 等擴展 SPL 計算能力;另外支持平臺圖表能力輸出,能夠集成到業務系統,完成數據價值輸出。

下面是 Pandora 的全景圖。從大數據分析的角度來看,先收集,然後處理、清洗,最後再分析和應用,是所有大數據廠商的通用做法。Pandora 在其中有一點是獨特之處,就是 Pandora 支持原始數據格式的實時索引,也就是說除了分析之外,可以同時支持檢索服務。整個檢索和分析被統一到 SPL 的分析引擎裏面,能夠同時支持檢索和分析服務。意味着用戶不用在意是檢索還是分析,可以一站式解決。

Pandora 的數據採集管理流程如下圖所示,通過這樣的流程,只要有數據產生,都可以有一個非常方便的方式來取得。

Schema On Road

在數據取得之後,就是 Pandora 的重頭戲——Schema On Read。我們可以從這張圖上可以看到 Pandora 的不同之處。Pandora 可以在原始數據直接上傳後,在分析時進行動態解析。也就說只需要一份原始數據,我們多種數據模型就能解答不同用戶的所有問題。這樣的優勢在於你可以針對各種數據進行各種建模。針對變化的數據格式,只要在 Pandora 裏做一些小小的變化便可完全兼容。這是純粹的日誌系統做不到的。

SPL:機器分析數據的標準語言

SQL 是我們機器數據分析的標準語言。通過一行的 SQL 的命令,便可以檢索,分析,可視化告警。支持對原始數據進行直接處理,並且專爲時序數據做了優化,大家可以看到我們之前對機器數據定義的時候,包括大量的時序可以結構化數據,所以給了我們很大的優化空間。

另外我們在數據湖裏做了多存儲引擎,並且可以接各種各樣的存儲引擎。最後我們寫了一個公式 SPL = SQL + Unix Pipeline,也就是說通過 SPL 我們可以做搜索,我們甚至可以寫解析的條件,但是又不用像寫代碼麻煩。

通過提供機器數據分析高級語言,支持複雜的搜索、聚合以及關聯分析的能力,處理能力更加強大。支持各種數學運算、關聯分析、事務分析、預測分析等。在事務分析中,可以分析連續相互關聯的事件集合,這也是 Pandora 特別適合安全場景的原因。

目前我們把 SPL 的能力也集成到了 platform 裏,用戶可以非常簡單地去做數據接入,特徵激活、算法的建模、效果展示、價值應用等,都可以在其中完成。

Pandora 擴展應用

有了 SPL 能力以後,Pandora 支持用戶在上面沉澱自己的知識。所以我們的理念是,Pandora 不是一個 platform,我們更希望它在傳遞價值。也就是說希望以 app 的形式,能將知識沉澱在 Pandora 的 App Store 裏。Pandora 的 App Store 作爲完整產品架構不可獲取的一部分,形成了從數據接入到數據展示的完整鏈路。

存儲架構:數據全生命週期管理
面對數據量較大的,並且強調實時處理的情況,我們在 Pandora 的存儲架構中,構建數據的全生命週期管理。

在成本和性能的雙重考慮下,我們在連貫的過程中,實現計算與存儲的完全解耦,資源應需而變;數據可實現歷史數據長期存儲,積累的海量歷史數據可以支持未來的機器學習、AIOps 等場景。

同時 Pandora 也在努力與七牛雲的存儲進行對接,使大家在直接對七牛云云存儲進行分析時,也能享受到儘可能高的性能。

技術點分享

我們做了正向索引與倒排索引以及行列混合存儲,也支持分層的存儲和 On Read、CodeGen、向量化。TimeSeries 的優化可以反映到計算引擎中,讓用戶體驗到更快的性能和更穩定的服務。

Pandora 案例

01
某大型保險公司

主要用於對信息系統整體日誌進行全生命週期智能管理,實現對日誌的統一採集,合併處理,集中存儲,關聯分析與智能管理。適用於解決運維開發領域的三大場景:
IT 運維,安全審計,業務運營分析;可提供包括線上監控、運維數據支撐、問題診斷、故障預警,資源監測、用戶行爲審計、規則提取、歸檔、攻擊溯源、業務走勢分析等服務。

02
某頂尖手機制造企業

第二個案例是某頂尖手機制造企業監控診斷和根因分析。手機在出廠前都要有一個測試的過程,但每次測試的時會產生很多很多的測試的數據,來反映手機的故障情況。在沒有製造系統知識的時候,需要員工要去看,非常複雜。在 Pandora 的賦能下,手機的製造廠商可以遠程監控我們的這個車間的生產質量,並且很快地定位到故障原因。

03
某領軍半導體企業

下面是半導體的企業案例,半導體的產業鏈非常長,在源頭是一個叫做單晶爐的設備,用來提煉單晶硅。Pandora 可以幫助單晶硅做健康度的檢查,也就說我們可以及時發現單晶爐的故障,在故障發生時及時報警,避免原材料無謂的投入,及時止損。從圖中我們可以看出,Pandora 通過多個維度做分析,通過單晶爐裏面的傳感器收集數據,對設備進行生產監控和預測性維護。

04
智能網聯車分析

最後一個案例是智能網聯車,Pandora 可以判斷車子的數據,比如什麼時候打了方向盤,什麼時候踩了剎車等等,在 Pandora 裏都可以一目瞭然。

大家可以通過以上幾個案例看出,Pandora 所針對的數據,都是由機器產生的、非常不規則的、帶有 time stamp 的數據。所以我們在金融、製造業、車聯網等等都有比較有意思的應用。Pandora 也希望通過大數據、AI 手段,爲更多相關產業賦能,實現產業升級。

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章