日誌服務 SLS 深度解析:擁抱雲原生和 AI,基於 SLS 的可觀測分析創新

10 月 31 日,杭州雲棲大會上,日誌服務 SLS 研發負責人簡志和產品經理孟威等發表了《日誌服務 SLS 深度解析:擁抱雲原生和 AI,基於 SLS 的可觀測分析創新》的主題演講,對阿里雲日誌服務 SLS 產品服務創新以及背後的技術積累進行了深度解讀。

日誌服務 SLS 是雲原生觀測與分析平臺,爲 Log、Metric、Trace 等數據提供大規模、低成本、實時的平臺化服務。日誌服務一站式提供數據採集、加工、查詢與分析、可視化、告警、消費與投遞等功能,全面提升您在開發、運維、運營、安全等場景的數字化能力。

SLS 近一年持續進行技術創新

近期迎來穩定、性能、易用、智能、成本五個方面的全新升級!包括:

  • 穩定可靠:同城冗餘存儲
  • 高性能:查詢分析引擎升級
  • 開放易用:兼容 ES/Kafka,統一易用的 SPL 語法,開箱即用的日誌應用
  • AI 加持:智能運維基礎模型,自動標註人工輔助微調,Copilot 智能問答
  • 低成本:按寫入數據量計費,熱存/低頻/歸檔存儲規格

穩定可靠

穩定可靠:同城冗餘存儲,構建雲上同城容災服務能力

  • 提供機房級容災能力:當服務終端或者災難事件導致某個機房不可用時,仍然能夠確保繼續提供強一致性的服務能力,可滿足關鍵業務系統對於 RPO=0 的強需求。
  • 更高的 SLA 可用性指標:SLS “同城區域冗餘”存儲能夠提供 99.99%的 可用性 SLA 指標,相比於“本地冗餘存儲” 99.9% SLA 指標,具有更高的可用性。
  • 一鍵開通:SLS “同城區域冗餘”能夠非常方便的構建雲上同城容災服務能力。用戶只需要在創建 Project 時,開啓“同城區域冗餘”存儲屬性即可。SLS 採用多副本機制自動將用戶的數據分散存放在同城相距數十公里的三個不同的可用區內。

高性能

高性能:查詢分析引擎性能升級,加速 SLS 日誌數據分析

通過本次升級,SLS 查詢分析引擎顯著提升 3 個方面性能:

  • 查詢性能提高 2 倍,每秒查詢百億~千億行日誌
  • 分析性能提高 3 倍,每秒處理數十億行日誌
  • 單租戶最大併發提升 20 倍,內存使用上限提升 10 倍,QPS 最高至 2000,支持更大規模、更復雜查詢

與此同時,還爲客戶帶來 4 個方面的新體驗:

  • 易於使用:提供簡單易用的 API,可以輕鬆地進行數據分析,實時獲得計算結果;
  • 高性能:基於列存儲、向量化計算引擎和內存計算的方式,可秒級處理大量數據的查詢分析,支持複雜的 SQL 查詢;
  • 可擴展性:基於分佈式架構和多租戶設計,可以在大規模數據集上運行,支持秒級水平擴展,按需彈性擴展出更多計算資源處理更大規模的數據;
  • 靈活性:基於秒級響應 API,分析結果所見即所得,可不斷調整優化 Query,從任意維度探索分析數據,具有很高的靈活性

高性能:時序查詢分析引擎升級,百萬時間線秒級計算

在開源的 Prometheus 中,對於 PromQL 的計算是完全單機、單協程的,這種方式在一些小型企業場景中較爲適用。但當集羣變大時,參與計算的時間線會劇烈膨脹,這時單機、單協程的計算完全無法滿足需求(通常對於一個幾十萬的時間線,查詢幾小時都會有十多秒的延遲)。

爲此我們在 PromQL 的計算邏輯上,引入了一層並行計算架構,將大部分的計算量分佈到 Worker 節點,Master 節點只做最終的結果聚合,同時計算併發數和 Shard 數解耦,存儲和計算都可以獨立擴縮容。

此次 SLS 時序查詢分析引擎升級,百萬時間線秒級計算:

  • 原生支持 PromQL:時序引擎原生適配 PromQL,支持 Prometheus 協議
  • AIOps 函數支持:支持豐富機器學習函數,爲時序數據賦予智能計算力
  • 性能升級:更智能的聚合寫入、全局 Cache、PromQL 分佈式計算、計算下推、內置降採樣

開放易用

開放易用:查詢分析引擎性能升級,加速 SLS 日誌數據分析

當您將日誌引擎從 Elasticsearch 切換爲日誌服務時,可能遇到使用習慣以及上下游程序修改問題。爲了解決這些問題,日誌服務提供了 Elasticsearch 兼容接口,最大程度保障 Elasticsearch 查詢分析方案遷移的平滑度,降低將日誌引擎從 Elasticsearch 切換爲日誌服務的使用難度。

日誌服務兼容 Elasticsearch API 和 Elasticsearch DSL(Domain Specific Language)語法。日誌服務所提供的Elasticsearch 兼容接口,其兼容機制是將 Elasticsearch DSL 查詢翻譯爲日誌服務的索引查詢和 SQL 分析查詢,並且按照 Elasticsearch 的 API 格式規範返回查詢分析結果,從而實現 Elasticsearch 的查詢協議的兼容。客戶無需進行 Query 改造即可將開源 Elasticsearch 遷移至 SLS 平臺。

此外,SLS 開放兼容,支持 ElasticSearch、Kafka、Prometheus、CK 99% 情況下無縫遷移。

開放易用:日誌服務推出功能強大的 SPL 語言,進一步提升日誌查詢、處理效率

日誌服務 SLS 將查詢語言升級爲 SPL (Search Processing Language):豐富的算子使得弱結構化數據的查詢、處理更加簡單;支持管道化語法,複雜處理需求也能實現分步求解;使用統一的 SPL 語法,可以玩轉日誌查詢、加工和消費等多項功能。同時,SPL 語言具有如下 5 大優勢:

  • 管道式語法:SPL 採用類似 Unix Pipeline 語法結構設計,用管道符分別連接查詢、過濾、抽取、轉換等子語句。對於複雜處理需求,通過逐步計算能更容易寫出完整語句。在交互式場景下,SPL 語句更易於調試,更便於探索分析。
  • 豐富的算子:SPL 從 SQL 語法中吸收了大量算子,不僅可以用於日誌的過濾搜索,還能完成複雜的加工操作,例如正則取值、字段分裂、字段投影、數值計算、編解碼等。
  • 弱結構化數據友好:對於每一行中字段不整齊的日誌數據,常規的 SQL 語言難以應對特殊場景需要,例如丟棄指å定字段、JSON 提取所有未知 Key 爲一級字段、按字段值分裂成多行等。SPL 提供了日誌場景上廣泛應用的加工算子,在弱結構化日誌處理上具有更高的靈活性、易用性。
  • 適用性廣泛:使用統一的 SPL 語言,可以運行在日誌服務多個功能上。例如編寫一個 SPL 過濾語句,可以用於日誌搜索,也可以用於流式消費時過濾下推,並且在數據加工等功能上也將支持 SPL。
  • 性能強勁:統一的 SPL 語言運行在高性能處理引擎上,基準過濾場景達到百 MB/s 的單核計算性能。日誌服務以分佈式集羣提供 Serverless 算力,滿足大規模數據實時處理性能需要。

綜上所述,日誌服務推出統一的 SPL 語言,使得日誌這類弱結構化數據的查詢、處理可以更加易用、靈活、高效。

開放易用:全棧可觀測,開箱即用的一站式 IT 系統可觀測方案

Gartner 報告指出,到 2026 年,成功應用可觀測性的企業中,有 70% 的企業將實現更短的決策延遲,從而爲目標業務或IT流程帶來競爭優勢。SLS 全新升級全棧可觀測應用,提供一站式 IT 系統全鏈路可觀測能力,包括 IT 基礎設施監控、全鏈路 Trace、全鏈路日誌、智能告警等功能,演示如何將 Log、Metric、Trace 等數據進行統一存儲和融合分析,並使用 SLS 自動巡檢、異常實時通知、根因定位等能力,幫助企業快速定位問題。

  • 全棧數據:融合 Trace、全棧監控、用戶體驗監控(前端/移動端)、性能監控,提供一站式的可觀測數據接入方案
  • 自動關聯:自動計算系統的拓撲,並基於數據與實體關聯關係實現所有數據和實體的互相關聯
  • 統一告警:提供內置的告警和指標巡檢,實現統一的事件管理和告警通知
  • 智能化:內置 AIOps 套件,實現對指標、Trace、日誌的智能分析,同時提供根因分析、Copilot 等高級功能

日誌審計,助力企業 SecOps 雲上安全審計

SLS 提供開箱即用的日誌審計服務,自動化實現跨多賬號日誌審計數據採集及集中存儲,幫助客戶快速搭建安全審計中心。

  • 豐富數據源:自動發現、自動化採集、一鍵配置 51 種主流產品日誌類型
  • 跨賬號多實例:支持跨賬號、多實例統一審計,提供長期、可靠、無篡改的日誌記錄與審計的中心化存儲
  • 安全合規:內置近百個 CIS、最佳實踐等安全場景監控規則,一鍵式開啓,及時發現不合規行爲
  • 開放易集成:藉助 SLS 查詢分析、加工、報表、告警、導出等功能,完整支持審計場景下分析告警對接需求。支持開源、三方 SIEM/SOC 對接

AI 加持

AI 加持,SLS 智能分析能力全新升級

日誌服務推出運維領域的基礎模型,覆蓋 Log、Trace、Metric 等可觀測數據場景,支持指標的異常檢測、文本的分詞標註、Trace 請求的高延時分析,模型提供開箱即用的異常檢測、自動標註、分類和根因分析等能力。支持秒級在數千請求內定位到根因,在生產中準確率達 95%以上。自動標註人工輔助微調支持人工標註結果打標修正,模型根據人工反饋自動微調,提升場景準確率。

此外,還提供 Alibaba CloudLens Copilot 大模型助力雲設施運維與運營。採用基於大語言模型的 NL2Query 技術,精準理解用戶的查詢意圖,提高查詢結果準確性;無需理解複雜的 SQL 語言和查詢語法,可準確將自然語言查詢轉化爲 SQL 查詢和可視化圖表;建立場景化的知識圖譜,持續學習,不斷優化模型調整和知識庫更新,不斷改進問題解答的準確性和效果。

低成本

全新按寫入數據量計費模式,讓 SLS 更普惠、更易用

日誌服務 SLS 全新推出按寫入數據量計費模式,是一種相比按使用功能計費(原計費方式)購買更簡單、費用可預期、場景更豐富的計費方式。

按寫入數據量計費模式僅收取原始數據(非壓縮)寫入費用及 30 天后的存儲費用(免費 30 天存儲權益)以及外網數據讀取費用,超過免費存儲週期的數據可繼續保存至熱存儲或低頻/歸檔。

相比於原計費方式,按寫入數據量計費的具有4大優勢:

  • 更省錢:比功能計費更省錢,全索引場景降價高達 32%,增值功能越多降幅越大
  • 更易購買:成本模型簡單易懂,基於當前業務數據量即可快速評估成本
  • 成本更可控:控制使用成本僅考慮業務規模,無需擔心其他功能增加費用
  • 場景更豐富:僅收取數據寫入/存儲/讀取費用,無需額外費用即可拓展更豐富場景

同時,按寫入數據量計費擁有極簡計費模式、計費公式更簡單。

例如: A 客戶每日寫入數據量 1GB,數據保存 30 天,按寫入數據量計費月目錄價=(1GB*30)*0.4元/GB=12元

新增歸檔存儲,存儲成本降幅 86%

除了按寫入數據量計費,日誌服務 SLS 還全新推出歸檔存儲類型,在現有熱存儲、低頻存儲的基礎上,爲用戶提供更低成本且可查詢分析的長期數據存儲方案。歸檔存儲類型具有3大特性:

  • 優化長期存儲成本:歸檔存儲價格僅 0.05 元/GB/月,相比熱存儲價格降幅可達 86%。
  • 智能存儲分層:多類型存儲規格可通過生命週期管理功能實現數據自動分層,配置簡便,無須編寫腳本或手動遷移數據。
  • 實時日誌查詢分析:歸檔存儲數據可實時訪問,無需手動取回或修改應用,無任何取回費用。

通過全新推出的按寫入數據量計費和歸檔存儲類型,幫助客戶更好的降本增效!

SLS 深度技術解讀

SLS 面臨的場景與挑戰

面向億級終端、千萬級 DAU 數據,我們需要同時應對各種可觀測分析、安全分析、大數據系統和大模型的場景和挑戰,SLS 如何滿足用戶需求並提供面向可觀測數據分析平臺能力?日誌服務 SLS 研發負責人、阿里雲資深技術專家簡志認爲,系統的穩定可靠彈性+低成本交互式設計是關鍵,並從架構存儲處理引擎和上層的應用支撐能力這四個層次解析了SLS 在技術設計方面如何化解這個問題。

架構:面向高可用設計

首先,讓我們來看一下用戶數據的生命週期,從數據的生成到最終進入我們的系統,它需要經歷哪些過程。對於可觀測性數據,在大語言模型的世界中,整個文本可以被視爲一個符號,計算機可以理解這個符號,從而能夠理解我們所處的物理世界。然而,在 IT 系統中,我們認爲 Log、Metric、Trace 數據是讓計算機能夠感知 IT 系統的關鍵要素。只有當這些數據能夠完整地進入我們的存儲系統,並在整個分析過程中得到使用,機器才能夠獲得完整的 Picture,這也是通向 AIOps 的必經之路。

從整個系統的角度來看,數據從用戶端產生到服務端,可能會經歷突發的流量情況。在整個網絡中,數據可能會經歷機器硬件故障和網絡鏈路傳輸問題,包括從各個可用區採集數據並將其完整存儲的過程。我們還需要面對低概率的不可用事件。爲了確保數據鏈路的完整性,我們通過彈性伸縮精確 Quota 管理、自動負載均衡多 AZ 架構設計,以及跨 Region 複製能力來提供服務。此外,SLS 和網絡團隊合作,通過全球自動加速技術,確保設備和數據無論位於全球哪個區域,都能夠安全高效地被採集到系統中。

在數據採集到系統後,我們面臨一個問題。儘管這類遙測數據(Telementry Data)本身的信息量並不大,但通過大數據技術,我們可以將這些數據進行整合,從而獲得一個完整的視圖。當然,爲了存儲這些數據,我們必須將存儲成本降低到一定程度。在阿里巴巴操作系統中,我們利用了兩個重要的模塊來實現這一目標,分別是飛天盤古對象存儲(OSS)。通過飛天盤古和 OSS 的靈活、海量和低成本存儲服務,我們可以將熱數據存儲在更易訪問的介質上,支持冷熱數據介質管理,降低了海量 OpenTelemetry 數據存儲的成本。

此外,SLS 還通過行列混合的編碼技術,平衡了存儲成本和訪問效率。它提供了低成本的歸檔存儲,並且能夠提供非常高的查詢吞吐量(QPS)。在業務突發場景下,單個查詢每秒可達到 2000 的 QPS,從而滿足高性能數據分析和查詢的需求。

存儲:面向 Telementry 場景構建

對於這類數據,我們會面臨各種不同的處理需求。無論是生成報表、觸發告警,還是在大數據系統針對數據進行訂閱和流處理,這些都是面向 Telementry 的常見應用場景。在設計過程中,我們充分考慮了程序員、安全團隊、運維團隊和運營團隊的各種需求,因此,我們將整個能力構建爲兩個系統引擎,一個是流處理引擎,另一個是批處理引擎。這兩個引擎基於阿里巴巴的低成本存儲和彈性計算能力,可以根據用戶的需求和數據規模進行靈活擴展。

在查詢語言方面,SLS 已經統一升級爲 SPL 管道式語法,在用戶查詢過程中,我們可以像 Linux 程序員一樣,通過非常傳統的 pipeline 線性來滿足需求。此外,SLS 還考慮了 BI 分析師的基本需求,並支持使用 SQL 標準數據分析語法。用戶只需要熟悉一種語言,就可以將其應用於流場景和批場景,從而使整個分析過程更加容易、從容。

處理:流批場景支持

SLS 在可觀測性場景中具備強大的兼容能力。過去,我們在搭建系統時,常常需要將數據在多個系統之間流動。例如,在遠程採集到數據後,我們需要通過 Queue 進行數據加工,然後將清洗後的數據投遞到各種查詢系統、指標存儲系統和數據湖等。在滿足安全需求時,研發人員通常需要通過多個接口獲取多份數據,並進行一系列複雜的計算,才能得到最終答案,這個過程非常耗時且費力。

而 SLS 的存儲模型充分考慮了各種數據訪問的需求,無論是順序訪問、隨機檢索還是批量訪問。通過兩個接口,即SQL 和 SPL,我們都可以輕鬆地獲取數據。因此,用戶使用 SLS 只需要通過一套 API,就能夠滿足對於 Log、Metric、Trace 數據和 Kafka 數據等所有分析場景的需求。

同時,爲了兼容整個生態系統,SLS 與開源進行合作。既支持通過 SLS 的接口訪問數據,也可以通過開源 Elasticsearch、Kafka 和 Prometheus 等訪問數據。因此,在 SLS 的設計中,只需要存儲一份數據,就能夠滿足所有場景的需求。

支撐:無孤島,不搬遷(一份數據、多協議)

小結

阿里雲日誌服務 SLS 全面擁抱雲原生和 AI,近一年持續進行技術創新,此次雲棲大會上發佈了在穩定可靠、高性能、開放易用、AI 加持、低成本等五個方面的全面升級。深度解讀 SLS 的技術積累,面向高可用設計的架構, 針對 Telementry 場景構建的存儲,支持流處理和批處理場景的處理引擎,以及一份數據多協議的上層應用支撐。未來,我們還將持續深耕基於 SLS 的可觀測分析創新,爲用戶提供更好的雲原生可觀測數據分析平臺服務。

原文鏈接

本文爲阿里雲原創內容,未經允許不得轉載。

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章