對話阿里云云原生產品負責人李國強:推進可觀測產品與OpenTelemetry開源生態全面融合

5 月 22 日,在最新一期的飛天發佈時刻上,阿里雲宣佈多款可觀測產品全面升級,其中一項是應用實時監控服務 ARMS 在業內率先推進了與 OpenTelemetry 開源生態的全面融合,極大豐富了可觀測的數據類型及規模,大幅增強了 ARMS 核心能力。

本次阿里雲 ARMS 產品全面升級的背景是什麼?爲什麼會產生圍繞 OpenTelemetry 進行產品演進的核心策略?在雲原生、大模型等新型應用架構類型層出不窮的今天,又將如何爲企業解決新的挑戰?飛天發佈時刻在第一時間採訪了阿里云云原生應用平臺產品負責人李國強,讓我們跟隨這場訪談實錄,走進全新升級的阿里雲可觀測產品。

阿里雲本次重磅發佈應用實時監控服務 ARMS 進行了全面的能力升級,爲什麼要做這樣的演進?這背後希望傳遞給大傢什麼樣的信息?

李國強: 這是一個非常好的問題,藉此我也和大家分享一下 ARMS 產品演進的一些方向和策略。ARMS 是應用性能監控領域的產品,在整個應用架構隨着市場需求變化的不斷演進下,它自然地會隨之發生一些變化。

比如像前兩年雲原生應用、以及這幾年大模型應用的出現,應用架構一直在演進。作爲一個應用性能監控產品,同樣要不斷去迭代自己的功能,持續對新類型應用提供性能監控能力。幫助企業將應用架構性能與穩定性做好,這是爲什麼 ARMS 不斷的進行演進、支持新能力的原因。

在最新的發佈的能力中,有兩大塊能力也是完全契合新的應用類型與架構變化的。

第一是整個端側應用的能力提升。 隨着移動互聯網走進千行百業,大家用手機端去做事情的場景會越來越多,頻次也會高一些,這時候端側的性能監控就變得越來越重要。因爲很多時候用戶發現性能出了問題,作爲一個廠商去診斷的時候,如果只看後端的監控性能,是不能夠找到這個問題的根因的。

通過 ARMS,我們對用戶體驗監控(RUM)能力進行提升,去幫助企業解決這方面問題,它有幾個重要的演進特徵:

  • 第一個,就是對多端的支持。像 iOS、安卓、小程序,包括 React 等一些新的技術,使端側類型變得非常的多。那怎麼能夠在一個產品裏面支持所有客戶端類型,對於企業來講是非常關鍵的。
  • 第二個,就是現在用戶對體驗要求越來越高之後,對於企業來講,也需要能夠精細化的定位每個用戶的請求是不是出問題。所以在最新的能力中,我們支持了以會話 Session 爲粒度的可觀測分析能力,使企業出現問題時能快速進行根因定位。
  • 第三個,就是在應用監控這塊,我們擁抱了 OpenTelemetry 這樣一個開源的標準,前面我們講到今天客戶端的類型非常豐富,各種各樣的數據的採集方式和數據的格式,我們藉助開源的力量,實現真正的統一。當我們基於這種統一的採集方式、數據格式的時候,會更快的構建出一個可觀測體系,這對企業也是非常關鍵的。
  • 第四個,是如何對客戶端的性能進行深度分析診斷,這也是非常關鍵的。包括會話的分析、頁面的分析、資源的分析、異常分析等等,這些都是用戶快速去發現端側問題需要關注的地方。

另外是在應用監控即後端應用方面, 剛纔講到了近幾年隨着微服務的興起、雲原生應用、大模型應用的不斷出現,也催生了應用監控能力不斷的提升,包括近年來在開源體系的支撐之下,我們原有的自研探針也升級到了以 OpenTelemetry 作爲基礎的探針模式。

這樣使得我們能夠更好的去借助整個開源社區的力量,在這之上還能再去做更強的自研能力的增強,使用戶一方面可以去擁抱開源這樣一個體系,另一方面還能得到我們一些產品上的加持。

第二個就是對多語言的能力支持。 因爲今天企業的應用類型越來越複雜了,它有原有的、老的應用類型,也有新興的互聯網的、手機的、大模型的應用,必然會導致語言類型多。之前我們有一個調研,結論是大部分的後端應用都是以 Java 爲主,但這兩年我們發現一個非常明顯的趨勢:互聯網公司開始越來越多地用 Go 語言,大語言模型越來越多地用 Python 這個語言。

所以在最新的能力裏面,我們除了持續加強對 Java 語言的支持之外,還增加了對 Go 語言和 Python 語言的無侵入的支持能力,使得用戶再去構建雲原生應用、大模型應用的時候也能夠以無侵入的方式獲得監控的能力。

第三個增強就是持續的剖析能力,Continuous profiling。 這也是今天去做一些精細化的問題診斷時需要的,它能夠在整個應用程序裏形成一個切面,找到某一個問題出現時 CPU、內存等的一些特徵,這對用戶診斷一些比較複雜的問題的時候也是非常關鍵的。

另外,剛纔也講到近來大模型應用非常的火,其實從去年開始已經有非常多企業在用大模型構建應用了。大模型的應用架構其實和原有的應用架構也是不太一樣的,它裏面有比較多的像對檢索增強的調用、對大模型本身的調用,這些調用在監控裏是有特殊的數據格式和語義的。

在 ARMS 裏面我們也最新推出了針對大模型應用的可觀測能力,對用戶是否爲大模型調用的場景進行識別,並且給他一個專屬的展示界面,使用戶能夠看得非常清楚,看到大模型應用是不是做了 RAG 的檢索增強調用、它的響應時間、Token 量等等一系列的能力,幫助用戶在構建大模型應用的時候調試及上線後的一些問題診斷等。

這些方面其實都是今天 ARMS 在面對新型的應用架構、新型的應用類型的時候推出的一系列新的能力,幫助用戶持續構建好應用,同時還能不斷地加強用戶去精細化的診斷問題、發現問題的能力。

可觀測性是雲原生應用的基礎。本次應用實時監控服務 ARMS 整體升級的一個主要的方向是圍繞 OpenTelemetry,它帶來什麼重要的意義?

李國強: 這也是一個非常重要的產品策略的一個演進的方向。我們明顯看到近幾年一個趨勢,就是在可觀測這個領域,開源已經成爲了一個事實標準,在主導這個領域的主要的發展,包括像 Prometheus、Grafana,以及今天我們講到 OpenTelemetry,這裏的主要目標是能夠讓這個開源主導的技術發展得更加活躍,包括在用戶使用的時候它的推廣和普及性會更好。

那回到今天 ARMS 這個重要發佈來看的話,這次全面擁抱 OpenTelemetry 生態的演進,有幾個重要點可以和大家分享。

首先,OpenTelemetry 最核心的使用領域是 Tracing,我們前面也講到了,在這個領域裏需要做到對整個應用調用的鏈路進行跟蹤和數據的採集,這是非常多元的。OpenTelemetry 通過定義標準的採集端和數據格式,統一了各種各樣數據源的採集方式和獲取數據的格式,使用戶去構建一體化的可觀測體系和架構的時候,變得更加簡單了。這個標準化其實各個廠商有些時候是很難去實現的,只有通過開源、標準的這種方式才能去做到它。

其次,就是廣泛多語言支持,前面其實我也提到了,今天企業內部的語言使用越來越廣泛,OpenTelemetry 作爲一個非常活躍的社區,其實對多語言的支持天然是非常好的,這也是開源社區常見的一種形態,所有人大家都來貢獻,那在多語言支持這件事情上肯定也比一個人做要快,所以廣泛的多語言支持也是我們去看重 OpenTelemetry 社區非常重要的方面。

第三個就是活躍的社區生態,除了我們剛纔講的對多語言的支持,在可觀測裏面還有一個多樣性,就是框架的多樣性。同樣的,這通過活躍的社區生態是也是更好、更容易支持的,社區往往在設計架構之初就會考慮到擴展性,因爲它需要去更多的人貢獻,那這個擴展性也非常利於雲廠商在開源能力之上去做一些增強。

基於 OpenTelemetry 這樣一個標準,ARMS 也在這之上做了非常多自研能力的增強,包括指標採集、採集率的調整等等,這樣一些能力使得用戶既能夠享受到開源社區的能力,不被廠商綁定,同時又能享受到雲廠商在這上做的各種各樣能力的增強,這些原因是我們今天去選擇去擁抱開源以及去擁抱 OpenTelemetry 的最核心。包括我們希望去借助這種 OpenTelemetry 這樣一個能力能夠幫助用戶可以更加便捷快速地構建起整個可觀測的體系。

本次 ARMS 也帶來免費試用額度,登錄阿里雲官網  “aliyun.com”  搜索應用實時監控 ARMS,或者點擊此處,即可獲取免費試用資源。

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章