AI Powered SLS 智能分析能力創新

AIOps 爲運維工作帶來革命式變革

隨着雲計算技術不斷升級,承載業務的 IT 基礎設施規模擴大,各個應用之間的鏈路關係變得越來越複雜,每時每刻都在產生海量級的日誌。對日誌數據的採集、存儲與分析處理方式,是衡量企業系統數字化程度的重要標誌。傳統的 IT 運維方案也會面臨非常大的挑戰,對於 DevOps 來說,需要花費數小時進行查找、對比和分析,以解決一個問題。這可能涉及到查看各種日誌、監控數據和其他相關信息,以找出問題的根源。而對於 SecOps 來說,需要在海量的數據中進行深度分析,意味着他們需要從數百 TB 的數據中,從異常中快速挖掘根本原因,這些過程都是非常耗時且繁瑣的,可能需要大量的人力和資源投入。

爲了解決以上問題,需要新一代的 AIOps 解決方案,數據融合分析實現自動化、全棧的數據全鏈路可觀測,更易使用、所見即所得的報表和診斷規則,通過 AI 加持、更高效的自動檢測異常並快速定位根因, AIOps 已爲運維工作帶來革命式變革。

日誌服務 SLS 如何提升效率?

SLS 自動化全棧採集數據

  • 雲基礎設施可觀測 Alibaba Cloud Lens:提供跨賬號、跨區域、統一的雲產品運維數據採集,支持自動採集計量、指標、訪問日誌等數據
  • 應用可觀測 全棧可觀測:全棧數據採集、客戶端到服務端、基礎設施到應用,數據關聯分析、跨多種數據源、完備分析語法、豐富上下文支持
  • 安全審計 日誌審計:50+ 數據源自動接入,安全態勢可視化圖表,內置 100+安全規則告警監控,提供多賬號管理、跨賬號、跨地域採集的中心化存儲

SLS 開箱即用的報表和診斷規則

  • CloudLens 內置規則:全面的雲產品輔助運維分析,支持消費組/API/Grafana 等靈活訂閱的數據平臺
  • 全棧可觀測內置告警:實時告警、事件管理系統、告警收斂,可定製儀表盤、內置異常檢測和根因分析
  • Security 內置規則:滿足合規、等保、網安法、GDPR 等標準,內置近百個安全合規監控規則

SLS 開放兼容的數據生態

  • SLS 提供開放兼容的數據生態,兼容多種數據源,統一採集。
  • SLS 兼容開源、高性價比的可觀測存儲分析平臺。內置 Serverless 分析能力,兼容開源引擎與工具,兼容 Elasticsearch、Kafka、Prometheus、CK,99% 的情況下無縫遷移。
  • SLS 是離線數倉、數據湖入湖的最佳方案,和三方 SIEM 對接提供 SecOps 雲上安全審計,並支持多種告警通知渠道。

IT 運維場景的基礎模型創新

阿里雲日誌服務 SLS 致力於打造高效、可觀測的運維解決方案,憑藉其多年的運維經驗以及大語言模型的支持,不斷提升其在此領域的競爭力。近期 SLS 發佈智能運維基礎模型,覆蓋 Log、Trace、Metric 等可觀測數據場景,支持指標的異常檢測、文本的分詞標註、Trace請求的高延時分析。模型提供開箱即用的異常檢測、自動標註、分類和根因分析等能力。支持秒級在數千請求內定位到根因,在生產中準確率達 95%以上。

此外,SLS 提供人工輔助微調。在日誌服務平臺上,原生支持對 Log、Metric、Trace 的標註反饋能力,讓客戶在使用的過程中可以快速進行標註、結果打標修正,沉澱符合特定場景的數據集。通過平臺的標註能力,讓客戶從零開始積累高質量的運維數據標籤,爲未來的根因診斷模型的訓練提供了無限可能。在未來,客戶可以針對自己標註的數據在特定領域的模型上進行微調,並行快速部署,創建私有的模型服務。支持自動標註人工輔助微調,支持人工標註結果打標修正,模型根據人工反饋自動微調,提升場景準確率。

SLS 讓大語言模型輔助生成查詢語句,成爲重要的智能助手。發佈 Alibaba CloudLens Copilot 大模型助力雲設施運維與運營。採用基於大語言模型的 NL2Query 技術,精準理解用戶的查詢意圖,提高查詢結果準確性;無需理解複雜的 SQL 語言和查詢語法,可準確將自然語言查詢轉化爲 SQL 查詢和可視化圖表;建立場景化的知識圖譜,持續學習,不斷優化模型調整和知識庫更新,不斷改進問題解答的準確性和效果。

場景示例:智能異常分析檢測與根因分析

針對某遊戲用戶在遊戲服務系統調用和依賴關係複雜的場景,我們提出了一種解決方案。該方案利用服務中的 Trace數據自動生成拓撲圖,並圍繞高延時分析、高錯誤率分析、系統熱點和瓶頸等方面進行分析和診斷,以縮短問題處理時間並優化系統延時。

通過自動生成的拓撲圖,我們可以快速定位海量 Trace 數據中的異常根因和性能瓶頸,無需人工干預。這種方法可以提高大規模分佈式系統的異常定位效率,並實現數千請求每秒級別的根因定位。在生產環境中,該方案的準確率可達到 95%。

智能運維基礎模型

傳統的 AIOps 技術如異常檢測、根因定位等主要有以下兩個問題:

  • AIOps 算法涉及到很多閾值、規則的配置,在不同業務場景這些配置項都需要反覆測試選擇。因此算法的維護成本比較高,很難隨着業務場景的變化而演進
  • AIOps 模型的構建一般使用私域數據,往往存在數據數量較少、質量較差的問題。這導致了模型的泛化性、遷移能力較差,在不同的業務場景往往需要重新構建

針對以上痛點,SLS 推出智能運維通用模型能力,我們分別構建了用於對 Log、Trace、Metric 這三類可觀測數據進行分析的基礎模型,提供開箱即用的異常檢測算法、根因分析和自動打標等能力。支持秒級在數千請求內定位到根因,在生產中準確率達 95%以上。對於不同的數據類型,我們選擇了不同的任務對模型進行預訓練:

  • Metric 基礎模型:可準備識別時序異常檢測、時序預測、形態檢測等,輔助做好更加智能的巡檢
  • Log 基礎模型:針對日誌場景,提供豐富的 LogNER 的能力,輔助抽取帶有語義信息的日誌模板)
  • Trace 基礎模型:支持 OT 協議的 Trace 數據的高延時診斷

特定領域的基礎模型,開箱即用,省略了複雜的部署流程,一鍵觸達,大大降低客戶對日誌服務基礎能力的使用門檻。客戶無需在特定的場景中進行模型微調,直接通過日誌服務提供的通用基礎模型就可以達到不錯的效果。

Alibaba Cloud Lens Copilot 大模型輔助基礎設施運維與運營

Alibaba Cloud Lens Copilot 大模型助力雲設施運維與運營,有效解決了通過 LLM 不瞭解 SLS 語法,缺少業務領域知識以及缺少高質量的問答語料等問題。

  • 準確識別意圖:使用基於大語言模型的 NL2Query 技術,精準理解用戶的查詢意圖,提高查詢結果準確性
  • 所見即所得的結果與報表:無需理解複雜的 SQL 語言和查詢語法,準確將自然語言查詢轉化爲 SQL 查詢和可視化圖表
  • 自動學習資產數據:融合 Alibaba Cloud Lens 中的資產數據與知識圖譜,持續學習資產數據、自動優化模型調整

總結

通過 AI 能力的加持,SLS 的智能分析能力將得到全面升級。SLS 致力於利用數據和算法來輔助 AIOps 創新,具備以下優勢:

  • 易於使用
    • 客戶可以在日誌服務控制檯上,輕量的觸達指標異常檢測、日誌文本智能分詞、Trace 鏈路高延時診斷等能力,讓客戶感覺模型無處不在
    • 特定領域的基礎模型,開箱即用,省略了複雜的部署流程,一鍵觸達
    • 本次推出特定領域的大語言模型,可大大降低客戶對日誌服務基礎能力的使用門檻,讓大語言模型輔助生成查詢語句,成爲重要的智能助手
  • 靈活性
    • 客戶無需在特定的場景中進行模型微調,直接通過日誌服務提供的通用基礎模型就可以達到不錯的效果
    • 在日誌服務平臺上,原生支持對 Log、Metric、Trace 的標註反饋能力,讓客戶在使用的過程中可以快速進行標註,沉澱符合特定場景的數據集
  • 可擴展性
    • 藉助阿里雲強大的算力支持,日誌服務內置提供的基礎通用模型可以實現快速的擴容和服務遷移
    • 在未來,客戶可以針對自己標註的數據在特定領域的模型上進行微調,並行快速部署,創建私有的模型服務

原文鏈接

本文爲阿里雲原創內容,未經允許不得轉載。

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章