車聯網上雲最佳實踐(五)

運維管控&DevOps

1、自動擴容/縮容

原文鏈接

https://yq.aliyun.com/articles/632663?spm=a2c4e.11155435.0.0.a5a43312pX2g7n

前面提到在車聯網行業中有個比較明顯的行業特性就是早晚高峯是平時流量的3倍甚至更高,但是平常要應付這麼高併發的流量意味着資源投入也要3倍以上。在傳統IDC架構中,我們通常是按照平常最高峯流量的1.2倍(1.2倍是爲應對特殊情況預留的buffer)來準備相應的服務器資源,在平時資源閒置比較明顯,資源利用率不到30%,意味着平常可能120臺應用服務器就足夠了,但是爲了應對高峯流量不出問題我們需要準備360臺服務器應對6個小時的高峯流量,其餘18小時可能只需要120臺服務器。爲了確保系統穩定,提升用戶體驗,當時我們只能投入比平時多幾倍的服務器資源。

爲了解決這一痛點,我們改用雲上的彈性伸縮ESS服務,利用彈性伸縮ESS服務構建我們的自動擴容/縮容系統,在高峯流量來臨前自動創建ECS服務器,自動部署應用,然後將啓動好的應用自動接入負載均衡節點下。在高峯期結束後,自動釋放這部分新增的ECS服務器資源。這期間的操作全程自動化,無需人工干預,而且這部分新增的資源按量付費,極大節約了成本。下面簡單介紹下雲上彈性伸縮服務以及我們是怎麼實現系統自動擴容和縮容。

阿里雲提供了彈性伸縮服務可以自動調整彈性計算資源大小,以滿足業務需求的變化。它可以根據設置的伸縮策略,在業務需求增長時自動增加ECS實例以保證計算能力,在業務需求下降時自動減少ECS實例以節約成本。

請輸入圖片描述

編輯

請點擊輸入圖片描述

彈性伸縮功能概述:

 根據客戶業務需求自動調整ECS實例數量。

 自動向負載均衡的後端服務器組中添加或移除相應的ECS實例。

 自動向RDS訪問白名單中添加或移除ECS實例的IP。

彈性伸縮特點:

隨需應變:

根據需求“恰到好處”地分配資源,無需提前預測需求變化,實時應對需求突增。

自動化:

無需人工干預,自動創建和釋放ECS實例,自動配置負載均衡和RDS訪問白名單。

伸縮模式豐富:

多模式兼容,可同時配置定時、動態、自定義、固定、健康模式,可通過API對接外在監控系統。

智能:智能調度雲計算資源,應對各種複雜場景。

我們的應用場景:

應對固定早晚出行高峯:

每天早上7-9點和晚上的18點-20點間屬於上下班高峯期,這種高峯流量比較固定,利用彈性伸縮服務進行定時在早上7點和下午18點進行自動擴容;

應對不固定的節假日出行高峯:

節假日出行高峯的特點是高峯流量變化難以預測,針對這部分不確定的高峯流量,利用彈性伸縮服務根據CPU利用率、應用負載、帶寬利用率作爲衡量指標進行彈性伸縮。我們在節假日來臨的前一天和結束的前一天的下午16點進行定時自動擴容,應對出城和返城高峯。在節假日期間則根據CPU利用率和帶寬利用率指標進行彈性擴容。

1) 開通服務:

登錄 彈性伸縮控制檯;

確認 開通服務;

前往 訪問控制檯RAM 授權使用彈性伸縮 API;

2) 創建伸縮組:

登錄 彈性伸縮控制檯;

選擇 地域,如華北2;

單擊 創建伸縮組;

在創建伸縮組頁面:

請輸入圖片描述

填入伸縮組名稱,如Applogin;

設置伸縮最大實例數(臺),如20;

設置伸縮最小實例數(臺),如20;

設置默認冷卻時間(秒),如600;

設置移出策略,如先篩選最早創建的實例,在結果中再篩選最早伸縮配置對應的實例;

設置網絡類型,如專有網絡;

配置負載均衡實例。指定的負載均衡實例所有的監聽端口必須開啓健康檢查,否則無法加入伸縮組;

配置雲數據庫RDS實例。指將擴容的ECSIP加入到對應數據庫的白名單裏;

單擊提交完成創建;

伸縮組創建成功後,可以直接創建伸縮配置或者單擊稍後創建;

請輸入圖片描述

編輯

請點擊輸入圖片描述

請輸入圖片描述

編輯

請點擊輸入圖片描述

請輸入圖片描述

編輯

請點擊輸入圖片描述

 填入 伸縮配置名稱,如Applogin-prod;

 選擇 計費方式,如 按量付費。更多詳情,請參閱 ECS 按量付費 和 競價實例;

 選擇 實例,如ecs.xn4.small。

 選擇 鏡像,如CentOS 7.4 64位。如果需要實現自動啓動Web服務器、自動下載代碼和腳本等功能,請選擇 自定義鏡像;

 選擇 存儲,如40GB高效雲盤;

 選擇 公網帶寬,如按使用流量1Mbit/s;

 選擇安全組;

 單擊 下一步;

3) 啓用伸縮組:

進入彈性伸縮控制檯;

選擇對應的伸縮組,點擊啓用;

點擊確定;

請輸入圖片描述

請輸入圖片描述

編輯

請點擊輸入圖片描述

4) 創建定時任務:

進入彈性伸縮控制檯;

點擊自動觸發任務管理,點擊定時任務;

點擊創建定時任務;

配置任務名稱及執行時間等;

點擊提交;

請輸入圖片描述

5) 檢查

進入彈性伸縮控制檯;

進入伸縮管理,選擇對應的伸縮名稱,點擊管理;

點擊基本信息,可查看彈性伸縮任務基本信息;

點擊ECS實例列表,可以查看彈性伸縮任務是否創建成功;

請輸入圖片描述

編輯

請點擊輸入圖片描述

請輸入圖片描述

編輯

請點擊輸入圖片描述

這樣自動彈性擴容接配置好了,搭配使用定製鏡像可以實現服務器啓動即可以提供應用服務。應用啓動之後自動掛載到對應的負載均衡組下。全程無需人工介入即可實現高峯期自動擴容業務,然後高峯過後實現自動縮容,非常方便。即爲公司節約了成本,又滿足了業務的彈性高峯業務需求,關鍵還不用增加運維的工作量,全程自動化。雲上彈性伸縮服務解決了我們一直以來的痛點。

2、自動發佈

在傳統IDC架構中我們大部分時間都是出於應用升級發佈工作和解決故障中,每天發佈次數50次左右,重大版本升級,可以高達100餘次,我們當時大部分都是腳本運維,和人肉運維,能做這麼高的發佈頻率已經很不錯了,但是公司還是希望可以更快點。有人會問爲什麼這麼多?公司處於高速發展期,爲了適應市場變化,以最快速度滿足市場的需求,所以需要研發團隊以最快速度完成需求設計,產品研發,產品測試,產品上線工作。第一時間搶佔市場,這也是一個互聯網企業的核心競爭力體現。當時我們也慢慢接觸Jenkins持續集成,並且在公司慢慢推廣。此次搬到雲上我們希望可以繼續利用Jenkins做持續集成,阿里雲專家給我們推薦了codepipeline 它完全兼容Jenkins的能力,是SAAS化產品,無需運維,集成多個代碼管理平臺。簡單介紹下codepipeline:

CodePipeline:

阿里雲CodePipeline是一款提供持續集成/持續交付能力,並完全兼容Jenkins的能力和使用習慣的SAAS化產品。通過使用阿里雲CodePipeline,可以方便的在雲端實現從代碼到應用的持續集成和交付,方便快速的對產品進行功能迭代和演進。

產品功能

 提供了多套源代碼管理平臺的集成,可以與GitHub、Bitbucket、阿里雲Code等平臺無縫集成獲取源碼。

 提供了多種開發語言的編譯及單元測試能力,目前包含Java,Node.js,Python2,Python3和PHP五種語言,以及通用文件打包模式,未來將集成更多的開發語言種類。

 提供了容器化集成解決方案,可以獨立支持Docker鏡像編譯,同時支持通過阿里雲容器鏡像服務 進行編譯和安全檢查,並與阿里雲容器服務打通,目前支持藍綠/灰度發佈等多種發佈方式。

 提供了應用部署到ECS的能力,同時完全兼容開源自動化運維軟件Salt,透明整個應用發佈和部署能力。

前面有介紹利用codepipeline構建Java應用併發布到Kubuernetes,下面再介紹下如果發佈到ECS,操作步驟如下:

1)登錄CodePipeline控制檯

如果還未開通CodePipeline產品的需要先開通。

2)同意RAM的CodePipeline的角色的授權

請輸入圖片描述

編輯

請點擊輸入圖片描述

3)新建項目

單擊新建,輸入項目名稱,選擇構建一個Java的軟件項目,並單擊下一步。

4)配置Repositories

添加Git的驗證方式,比如用戶名/密碼。

請輸入圖片描述

編輯

請點擊輸入圖片描述

5)配置代碼分支

請輸入圖片描述

編輯

請點擊輸入圖片描述

6)配置構建命令

請輸入圖片描述

編輯

請點擊輸入圖片描述

7)配置測試命令

如果我們不需要做單元測試,可以不填寫測試命令。

請輸入圖片描述

編輯

請點擊輸入圖片描述

8) 選擇部署到ECS

上傳構建物到 OSS

部署構建物到 ECS

在要部署到的 ECS 機器上執行下面的命令

請輸入圖片描述

編輯

請點擊輸入圖片描述

單擊下圖中的刷新按鈕,選擇目標ECS,移動到已選部署目標中,並單擊下一步。

請輸入圖片描述

編輯

請點擊輸入圖片描述

確認配置項並單擊提交

如果需要修改某些配置,可以在這個頁面進行修改。

9)執行構建

完成項目的任務配置後,可以單擊左側導航欄中的立即構建,開始執行配置中的構建及部署命令。

請輸入圖片描述

編輯

請點擊輸入圖片描述

我們可以在構建隊列及構建歷史中查看構建狀態。

請輸入圖片描述

編輯

請點擊輸入圖片描述

進入構建,單擊控制檯輸出,可以查看日誌。

請輸入圖片描述

編輯

請點擊輸入圖片描述

構建完成後,可以通過訪問 ECS 的 IP 查看部署的服務。

當然除了可以代碼部署到ECS上,CodePipeline還可以支持將代碼部署到Kubernetes以及Swarm等阿里雲容器服務之中。詳細操作方式請查看阿里雲官方文檔。

3、監控報警

傳統IDC架構中我們的監控系統是自建的zabbix監控系統,隨着公司業務快速發展,監控項也急劇增加,由最初的1000個監控項增加到3w個監控項,監控系統數據庫性能跟不上,查詢很慢,告警延遲和誤報的現象逐漸增多,監控需求越來越多樣化,定製化。傳統監控系統已經不能滿足未來業務高速發展。監控報警系統就是運維同學的眼睛監控是否全面,報警是否靈活,處理是否及時直接關係到系統的穩定性。所以我們改用阿里雲的雲監控是一項針對阿里雲資源和互聯網應用進行監控的服務。雲監控服務可用於收集獲取阿里雲資源的監控指標,探測互聯網服務的可用性以及針對指標設置靈活的報警。以下是雲監控特點:

1)天然集成

雲監控服務無需特意購買和開通,註冊好阿里雲賬號後,便自動爲開通了雲監控服務,方便在購買和使用阿里雲產品後直接到雲監控查看產品運行狀態並設置報警規則。

2)數據可視化

雲監控通過Dashboard爲用戶提供豐富的圖表展現形式,並支持全屏展示和數據自動刷新。滿足各種場景下的監控數據可視化需求。

3)監控數據處理

雲監控支持用戶通過Dashboard對監控數據進行時間維度和空間維度的聚合處理。

4)靈活報警

雲監控還爲提供了監控項的報警服務。在爲監控項設置好合理的報警規則和通知方式後,一旦發生異常便會立刻爲發出報警通知,讓及時知曉服務異常並處理異常,從而提高用戶產品的可用性。

分享一個報警模板配置技巧:

當賬號下服務器和其他雲產品實例非常多時,首先建議按照業務視角爲資源創建不同的應用分組,然後通過應用分組來批量管理資源。

報警模板是如何提升配置報警規則的效率的?

1) 先解釋一下報警規則配置在應用分組和配置在單實例上有什麼不同。

 創建報警規則時資源範圍可以選擇“實例”或者“應用分組”,如果選擇“應用分組”,那麼報警規則的作用範圍就是整個應用分組內的所有資源。業務需要擴容或者縮容時,只需要將相應資源移入或移出應用分組,而不需要增加或刪除報警規則。如果需要修改報警規則,也只需要修改這一條報警規則,就生效在組內所有實例上。

 如果選擇將報警規則創建在實例上,那麼該規則只對單一實例有效。修改報警規則時也只對單一實例生效。當實例增多時報警規則會變得難以管理。

2) 報警模板如何提升配置規則的效率?

 ECS、RDS、SLB等基礎服務在配置報警時,監控項和報警閾值相對固定,爲這些需要報警的指標建立模板後,新增業務時,創建好應用分組後直接將模板應用在分組上,即可一鍵創建報警規則。

 當需要批量新增、修改、刪除報警規則時,也可以修改模板後,將模板統一應用在分組上,極大的節省操作時間。

操作步驟

下面我們以車聯網平臺車隊管理爲例講解如何創建應用分組和使用報警模板,快速將業務的雲上監控報警體系搭建起來。

1)車聯網平臺的後臺通常包含車隊管理、sms卡管理,車機管理等模塊。首選我們創建一個名爲“車隊管理線上環境”的應用分組。

進入應用分組頁面,單擊頁面右上角的“創建組”按鈕,進入創建應用分組頁面。

爲分組填寫名稱,並且選擇車隊管理這塊業務使用的雲資源,我們以最常見的服務器+數據庫+負載均衡資源組合爲例。

請輸入圖片描述

編輯

請點擊輸入圖片描述

請輸入圖片描述

編輯

請點擊輸入圖片描述

選擇通知對象,當應用分組內的報警規則發生報警時,會發送給這裏的通知對象。

請輸入圖片描述

編輯

請點擊輸入圖片描述

 點擊確認後完成分組的創建。

2)創建報警模板

進入報警服務的報警模板頁面,點擊頁面右上角的“創建報警模板”按鈕,進入創建模板頁面。

填寫模板基本信息。

請輸入圖片描述

編輯

請點擊輸入圖片描述

添加報警策略,將業務模塊需要的報警策略添加到報警模板中。

請輸入圖片描述

編輯

請點擊輸入圖片描述

 點擊確認保存模板配置。

3) 將模板應用在分組上

在模板列表中選擇上一步創建好的模板,應用在“車隊管理線上環境”這個應用分組上。並且選擇通知策略。

請輸入圖片描述

編輯

請點擊輸入圖片描述

下面是通過阿里雲的雲監控一鍵生成的監控大盤。雲監控Dashboard支持全屏展示和自動刷新,可以將各類產品指標添加到監控大盤後在運維大屏上全屏展示。

請輸入圖片描述

編輯

請點擊輸入圖片描述

4、日誌服務

在我們車聯網平臺架構中,日誌系統是一個非常重要的功能組成部分。它可以記錄下應用或者系統所產生的的所有行爲,並按照某種規範表達出來。這些日誌數據也是非常寶貴的。爲此我們需要將應用日誌,系統日誌,操作日誌等所有日誌收集起來,然後利用大數據分析技術對其進行安全審計,故障定位,數據分析等等。在傳統的IDC架構中我們自建一套開源日誌系統(簡稱ELK,是內比較流行的日誌系統),我們的當的所有業務系統一天的日誌量在500GB左右,當時我們自建的ELK系統用10臺服務器,分別由1臺Kibana服務器(做前端展示)+3臺logstash服務器(做日誌搬運和日誌index)+3臺kafka服務器(做日誌隊列)+6臺Elasticsearch服務器做日誌存儲和搜索。其中6臺Elasticsearch服務器爲物理機,ES配置低了會影響日誌寫入性能和搜索性能。所以這樣一套ELK成本不低,而且僅能滿足1個月日誌存儲。並且ES的優化和維護難度還是挺高的,需要專業的運維人員維護。基於這些因素,我們改用雲上日誌服務。阿里雲的日誌服務費用很低,遠遠低於自己的ELK系統。不僅成本低,還無需運維,功能也很豐富,支持的開源組件非常多。是一款非常簡單易用,功能豐富,價格低廉的日誌系統。下面簡單介紹下雲上日誌服務特點以及我們是怎麼使用的。

阿里雲日誌服務產品特點:

1)全託管服務

 易用性強,5分鐘即可接入服務進行使用,Agent支持任意網絡下數據採集。

 LogHub覆蓋Kafka 100%功能,並提供完整監控、報警等功能數據,彈性伸縮等(可支持PB/Day規模),使用成本爲自建50%以下。

 LogSearch/Analytics 提供保存查詢、儀表盤和報警功能、使用成本爲自建 20%以下。

 30+ 接入方式,與雲產品 (OSS/E-MapReduce/MaxCompute/Table Store/MNS/CDN/ARMS等)、開源軟件(Storm、Spark)無縫對接。

2)生態豐富

 LogHub 支持30+採集端,包括Logstash、Fluent等,無論是從嵌入式設備,網頁,服務器,程序等都能輕鬆接入。在消費端,支持與Spark Streaming、Storm、雲監控、ARMS等對接。

 LogShipper 支持豐富數據格式(TextFile、SequenceFile、Parquet等),支持自定義Partition,數據可以直接對接Presto、Hive、Spark、Hadoop、E-MapReduce、MaxCompute、HybridDB等存儲引擎。

 LogSearch/Analytics 查詢分析語法完整,兼容SQL92,支持通過JDBC協議與Grafana對接。

3)實時性強

 LogHub:寫入即可消費;Logtail(採集Agent)實時採集傳輸,1秒內到服務端(99.9%情況)。

 LogSearch/Analytics:寫入即可查詢分析,在多個查詢條件下1秒可查詢10億級數據,多個聚合條件下1秒可分析1億級數據。

4)完整API/SDK

輕鬆支持自定義管理及二次開發。

所有功能均可通過API/SDK實現,提供多種語言SDK,可輕鬆管理服務和百萬級設備。

查詢分析語法簡單便捷(兼容SQL92),接口友好適合與生態軟件對接(支持Grafana對接方案)。

Nginx日誌分析案例:

我們公司有許多自建Nginx反向代理服務器,主要用於車聯網App用戶以及車隊web用戶的web請求轉發,做爲HTTP流量的統一入口,因爲Nginx在處理web請求上擁有強大模塊和正則表達式支持,可以幫助我們實行豐富的功能,同時在對網站,APP應用訪問情況進行分析時,需要對Nginx訪問日誌統計分析,從中獲取App、網站的訪問量、訪問時段等訪問情況。下面介紹下我們是如何利用日誌服務做的Nginx日誌分析。

操作步驟如下:

定義nginx日誌格式

配置日誌服務

1)數據接入嚮導

日誌服務提供數據接入嚮導快速接入各類數據源,將Nginx訪問日誌採集到日誌服務可以採用如下兩種方式進入數據接入嚮導。

新建項目在創建項目和創建日誌庫後,根據頁面提示點擊數據接入嚮導。

請輸入圖片描述

編輯

請點擊輸入圖片描述

對於已存在的Logstore,點擊列表中數據接入嚮導圖標進入。

請輸入圖片描述

編輯

請點擊輸入圖片描述

2) 選擇數據類型

日誌服務提供多種數據類型接入(雲產品、自建軟件、API、SDK等),分析NGINX訪問日誌請選擇 自建軟件 > NGINX訪問日誌。

3)數據源設置

按照實際情況填寫配置名稱和日誌路徑,並將推薦的log_format信息填寫到NGINX日誌格式中。

請輸入圖片描述

編輯

請點擊輸入圖片描述

日誌服務會自動提取出相應的鍵名稱。

注意:其中$request會被提取爲request_method和request_uri兩個鍵。

請輸入圖片描述

編輯

請點擊輸入圖片描述

 應用到機器組

注意:Logtail配置推送生效時間最長需要3分鐘,請耐心等待。

4) 查詢分析和可視化

確保日誌機器組心跳正常的情況下,可以通過點擊右側預覽按鈕獲取到採集上來的數據。

5) 分析訪問日誌

如下圖所示,開啓索引後,默認生成儀表盤頁面可以快速看到各個指標的分析情況。關於如何使用儀表盤。

 PV/UV統計(pv_uv)

統計最近一天的PV數和UV數。

訪問地域分析(ip_distribution)

統計訪問ip來源情況。

請輸入圖片描述

編輯

請點擊輸入圖片描述

統計語句:

請輸入圖片描述

編輯

請點擊輸入圖片描述

訪問前十地址(top_page)

統計最近一天訪問PV前十的地址。

請輸入圖片描述

編輯

請點擊輸入圖片描述

統計語句:

請輸入圖片描述

編輯

請點擊輸入圖片描述

請求方法佔比(http_method_percentage)

統計最近一天各種請求方法的佔比。

請輸入圖片描述

編輯

請點擊輸入圖片描述

統計語句:

請輸入圖片描述

編輯

請點擊輸入圖片描述

請求狀態佔比(http_status_percentage)

統計最近一天各種http狀態碼的佔比。

請輸入圖片描述

編輯

請點擊輸入圖片描述

統計語句:

請輸入圖片描述

編輯

請點擊輸入圖片描述

請求UA佔比(user_agent)

統計最近一天各種瀏覽器的佔比。

請輸入圖片描述

編輯

請點擊輸入圖片描述

統計語句:

請輸入圖片描述

編輯

請點擊輸入圖片描述

 前十訪問來源(top_10_referer)

6)訪問診斷及優化

除了一些默認的訪問指標外,站長常常還需要對一些訪問請求進行診斷,查看一下處理請求的延時如何,有哪些比較大的延時,哪些頁面的延時比較大。此時可以進入查詢頁面進行快速分析。

統計平均延時和最大延時

通過每5分鐘的平均延時和最大延時,從整體上了解延時情況。

統計語句:

請輸入圖片描述

編輯

請點擊輸入圖片描述

統計最大延時對應的請求頁面

知道了最大延時之後,需要明確最大延時對應的請求頁面是,以方便進一步優化頁面響應。

統計語句:

請輸入圖片描述

編輯

請點擊輸入圖片描述

 統計請求延時的分佈

統計網站的所有請求的延時的分佈,把延時分佈在十個桶裏面,看每個延時區間的請求個數。

統計語句:

統計最大的十個延時

除最大的延時之外,還需要統計最大的十個延時及其對應值。

統計語句:

請輸入圖片描述

編輯

請點擊輸入圖片描述

對延時最大的頁面調優

假如/url2這個頁面的訪問延時最大,爲了對/url2頁面進行調優,接下來需要統計/url2這個頁面的訪問PV、UV、各種method次數、各種status次數、各種瀏覽器次數、平均延時和最大延時。

統計語句:

請輸入圖片描述

編輯

請點擊輸入圖片描述

 LogHub:

以購買雲主機 + 雲磁盤搭建 Kafka 相比,對於 98% 場景下用戶價格有優勢。對小型網站而言,成本爲 kafka 的30% 以下。

提供 RESTful API,可以直接針對移動設備提供數據收集功能,節省了日誌收集網關服務器的費用。

免運維,隨時隨地彈性擴容使用。

 LogShipper:

無需任何代碼/機器資源,靈活配置與豐富監控數據。

規模線性擴展 (PB級/Day),功能當前免費。

 LogSearch/Analytics:

以購買雲主機 + 自建 ELK 相比,成本爲自建的 15% 以下,並且查詢能力與數據規模有極大提升。

與以上日誌管理軟件相比,能無縫各種流行支持流計算 + 離線計算框架,日誌流動暢通無阻。

5、數據大屏

公司經常會有交通部有關領導來我司視察工作,爲了配合視察工作我們需要將車輛網平臺各個業務系統的運行狀態,業務指標等通出大屏展示出來,例如在線車輛統計,在線App用戶統計,車輛告警統計,當日新增用戶統計,各城市車輛統計,交通擁堵狀況等等。通常將這一過程稱之爲數據可視化,數據可視化致力於用更生動、友好的形式,即時呈現隱藏在瞬息萬變且龐雜數據背後的業務洞察。當時我們公司的設計師對於複雜數據的展現經驗不足,設計出來的很多圖表與特效比較簡單,導致最終效果不是很好,間接影響了視察工作的整體效果。在雲上我們改用了阿里雲DataV數據可視化產品,它提供了各項數據圖表展示組件,通過阿里雲DataV數據可視化產品可以讓運維人員也可以設計出各種高大上的炫酷大屏,而且簡單易上手。藉助於DataV數據可視化我們完美生動的展示出智能車聯網平臺各項實時業務指標以及車聯網在交通領域的應用。下面簡單介紹下DataV數據可視化介紹:

DataV功能特性有哪些呢?

1) 多種場景模板,解決設計難題

數據可視化的設計難點不在於圖表類型的多,而在於如何能在簡單的一頁之內讓人讀懂數據之間的層次與關聯,這就關係到色彩、佈局、圖表的綜合運用。DataV 提供指揮中心、地理分析、實時監控、彙報展示等多種場景模版,即便沒有設計師,可視化作品也有顯現出高設計水準。

2)多種圖表組件,支撐多種數據類型的分析展示

除針對業務展示優化過的常規圖表外,還能夠繪製包括海量數據的地理軌跡、地理飛線、熱力分佈、地域區塊、3D地圖、3D地球,地理數據的多層疊加。此外還有拓撲關係、樹圖等異形圖表供自由搭配。

請輸入圖片描述

編輯

請點擊輸入圖片描述

請輸入圖片描述

編輯

請點擊輸入圖片描述

3)多種數據源接入,充分發揮阿里雲大數據計算的能力

能夠接入包括阿里雲分析型數據庫,關係型數據庫,本地CSV上傳和在線API的接入,且支持動態請求。滿足各類大數據實時計算、監控的需求,充分發揮大數據計算的能力。

請輸入圖片描述

編輯

請點擊輸入圖片描述

4)圖形化的搭建工具,無需專業編程人員也可快速實現

提供多種的業務模塊級而非圖表組件的Widget,所見即所得式的配置方式,無需編程能力,只需要通過拖曳,即可創造出專業的可視化應用。

請輸入圖片描述

編輯

請點擊輸入圖片描述

5) 多分辨率適配與發佈方式,滿足不同場合下的使用

特別針對拼接大屏端的展示做了分辨率優化,能夠適配非常規拼接分辨率做適配優化。創建的可視化應用能夠發佈分享,沒有購買 DataV 產品的用戶也可以訪問到應用,作爲對外數據業務展示的窗口。

6、企業運維管理

我們公司運維團隊規模26人,其中應用運維10人,數據庫運維3人,系統運維2人,網絡運維2人,運維開發3人,運維監控人員6人。做好企業運維管理的第一件事就是做好權限管理,其次是安全審計。例如DBA的權限和應用運維的權限應該怎麼區別?怎樣審查運維人員的操作是否合規?等等。在這些情況下企業如何應對賬號管理風險,權限管理風險,安全管理風險以及效率提升都是挑戰。在傳統IDC架構中我們也只是通過簡單的sudo授權體系去做權限控制,但是配置相當複雜,權限更新不及時,管理顆粒的比較粗,在實踐中發現綜合效果不是很好。在雲上我們改用阿里雲訪問控制RAM、操作審計等產品,下面簡單介紹下RAM和操作審計:

1) 訪問控制RAM

RAM (Resource Access Management) 是阿里雲提供的資源訪問控制服務。通過RAM,可以集中管理用戶(比如員工、系統或應用程序),以及控制用戶可以訪問名下哪些資源的權限。

RAM包括下列功能:

 集中控制RAM用戶及其密鑰 —— 可以管理每個用戶及其訪問密鑰,爲用戶綁定/解綁多因素認證設備

 集中控制RAM用戶的訪問權限 —— 可以控制每個用戶可以訪問名下哪些資源的操作權限

 集中控制RAM用戶的資源訪問方式 ——可以確保用戶必須使用安全信道(如SSL)、在指定時間、以及在指定的網絡環境下請求訪問特定的雲服務

 集中控制雲資源 —— 可以對用戶創建的實例或數據進行集中控制。當用戶離開組織時,這些實例或數據不會丟失

 統一賬單 ——賬戶將收到包括所有用戶的資源操作所發生的費用的單一賬單

下面從登錄驗證、賬號授權、權限分配 三方面介紹我們在 RAM 的操作:

a) 登錄驗證

爲根賬戶和 RAM 用戶啓用 MFA

 爲根賬戶綁定 MFA(Multi-factor authentication,多因素認證),每次使用根賬戶時都強制使用多因素認證。

創建 RAM 用戶,並且給高級工程師用戶授予高風險操作權限(比如,停止虛擬機,刪除存儲桶),並且給 RAM 用戶綁定 MFA。

 爲用戶登錄配置強密碼策略

允許子用戶更改登錄密碼,要求他們創建強密碼並且定期輪換。

通過 RAM 控制檯設置密碼策略,最短長度最少8個字符、密碼複雜性必須較高。

 定期輪轉用戶登錄密碼和訪問密鑰

通過RAM控制檯爲RAM 用戶設置3個月輪換登錄密碼或訪問密鑰。 這樣在不知情的時候,如果出現憑證泄露,那麼憑證的使用期限也是受限制的。

可以通過設置密碼策略來強制RAM用戶輪換登錄密碼或訪問密鑰的週期。

b) 賬號授權

 遵循最小授權原則

最小授權原則是安全設計的基本原則。我們給 RAM 用戶授權 時,會授予剛好滿足他工作所需的權限,而不要過度授權。

比如,在組織中,如果 Developers 組員(或者一個應用系統)的工作職責只需要讀取 OSS 存儲桶裏的數據,那麼就只給這個組(或應用系統)授予 OSS 資源的只讀權限,而不要授權 OSS 資源的所有權限,更不要授予對所有產品資源的訪問權限。

 使用策略限制條件來增強安全性

給用戶授權時設置策略限制條件,這樣可以增強安全性。

比如授權用戶Jason可以關停 ECS 實例,限制條件是Jason必須在9點-18點、並且公司網絡中執行該操作。

 及時撤銷用戶不再需要的權限

當用戶由於工作職責變更而不再使用權限時,需要及時將用戶的權限撤銷。

c) 權限分配

 不要爲根賬戶創建訪問密鑰

不要創建根賬號訪問密鑰並使用該密鑰進行日常工作,由於根賬戶對名下資源有完全控制權限,所以爲了避免因訪問密鑰泄露所帶來的災難性損失。

 使用羣組給 RAM 用戶分配權限

創建與人員工作職責相關的 羣組(如admins、developers、dba、accounting等),爲每個羣組綁定合適的授權策略,然後把用戶加入這些羣組。羣組內的所有用戶共享相同的權限。這樣,如果需要修改羣組內所有人的權限,只需在一處修改即可。當組織人員發生調動時,只需更改用戶所屬的羣組即可。

 將用戶管理、權限管理與資源管理分離

創建不同的 RAM 用戶,其職責分別是 RAM 用戶管理、RAM 權限分配,以及各產品的資源操作管理。一個好的分權體系應該支持權力制衡,儘可能地降低安全風險。

 將控制檯用戶與 API 用戶分離

只給員工創建密碼登錄,給系統或應用程序只創建訪問密鑰。不給一個RAM 用戶同時創建用於控制檯操作的登錄密碼和用於 API 操作的訪問密鑰。

2) 操作審計

操作審計(ActionTrail)會記錄雲賬戶資源操作,提供操作記錄查詢,並可以將記錄文件保存到指定的OSS存儲空間。利用 ActionTrail保存的所有操作記錄,可以實現安全分析、資源變更追蹤以及合規性審計。

功能描述

記錄操作事件

可以使用管理控制檯或API爲賬戶創建ActionTrail,給ActionTrail指定事件記錄的OSS存儲空間,然後通過ActionTrail控制檯或者指定的存儲空間中查看日誌。

自主管理事件

ActionTrail 將事件記錄保存在指定的OSS存儲空間中,可以使用OSS數據加密以及權限管理功能來確保事件記錄的數據安全。

多維查詢事件

ActionTrail支持從操作時段、用戶名、資源類型、資源名稱、操作名稱等維度來查詢操作事件,可以幫助用戶快速診斷問題或追蹤安全事故。

3) 雲盾堡壘機

在傳統IDC架構中我們是利用開源Jumpserver系統自建的一套運維堡壘機。開源的堡壘機系統本來就比較少,更何況還是國產的,所以對之前用的那套過程堡壘機還是比較認可的。但就是功能還是不能完全滿足我們的需求,是不是的暴露出一些產品bug,加上官網修復bug的速度太慢,可能是因爲官方主要維護人員不多,忙不過來導致的。開源堡壘機在安全迴歸上也無法滿足監管機構的要求。所以雲上我們改用雲盾堡壘機產品,它集中了運維身份鑑別、賬號管控、系統操作審計等多種功能。基於協議正向代理實現,通過正向代理的方式實現對 SSH 、Windows 遠程桌面、及 SFTP 等常見運維協議的數據流進行全程記錄,並通過協議數據流重組的方式進行錄像回放,達到運維審計的目的。相比開源堡壘機它多些安全方面的功能,例如賬號雙因子認證,滿足更高的安全迴歸要求。

堡壘機實現價值如下:

實現技術層統一

 統一運維入口

 統一自然人與主機帳號間的權限關係

 統一運維操作審計管控點

滿足法規要求

 政府: 滿足《等級保護》系列文件中的技術審計要求

 金融: 滿足金融監管部門系列文件中的技術審計要求

 企業: 滿足《ISO27000》系列文件中的技術審計要求

雲盾堡壘機功能特性有:

a) 操作審計

多面記錄運維人員的操作行爲,作爲事件追溯的保障和事故分析的依據。

 運維操作記錄: 操作失誤、惡意操作、越權操作詳細記錄

 Linux命令審計: 可提取命令符審計,支持命令定點回放

 Windows操作錄像: 遠程桌面的操作,支持全程錄像,包括鍵盤操作、鼠標操作、窗口打開等

 文件傳輸審計: 支持遠程桌面文件傳輸、FTP/SFTP的原文件審計

b) 職權管控

通過賬號管控和權限組管理,實現分職權進行人員和資產的管理。

 賬號管控: 運維賬號唯一,解決共享賬號、臨時賬號、濫用權限等問題

 權組管理: 按照人員、部門組織、資源組,建立人員職責與資源分配的授權管理

c) 安全認證

引入雙因子認證機制,防止運維人員身份冒用和複用。

 賬號雙因子認證: 支持多種雙因子認證機制,通過短信認證、動態令牌等技術,控制賬號密碼泄露風險

d) 高效運維

從架構、工具、ECS接入等多方面提升運維效率。

 C/S架構運維接入: 支持SSH、RDP、TELNET、SFTP協議

 支持各種運維工具: 支持PuTTY、SecureCRT、Xshell、WinSCP、mstsc等工具

 ECS高效接入: 支持一鍵同步並導入ECS雲服務器

4) 標籤管理

我們在傳統IDC架構中對管理服務器資源的時候通常是用的EXCEL來管理,沒有專門CMDB系統,在管理主機的時候經常遇到主機各種問題,例如這臺主機的owner是誰,哪個部門在用,什麼環境的,裝的什麼系統,部署的什麼應用。這些我們當時只能是用最古老的辦法Execl來管理,所以信息更新不及時,數據容易丟失等確定。雲上我們改用標籤管理來解決這些痛點,標籤管理可以實現對資源的分類和統一管理。有了標籤,我們可以爲每臺雲主機定義多個標籤,以後在管理雲主機的時候可以根據不同的標籤來查找想要的主機了,非常方便。下面介紹如果使用標籤管理:

標籤使用有以下限制:

 每個標籤都由一對鍵值對(Key-Value Pair)組成。

 每個實例最多可以綁定 10 個標籤,每次最多綁定或解綁 5 個標籤。

 每個資源的任一標籤的標籤鍵(Key)必須唯一,相同標籤鍵(Key)的標籤會被覆蓋。

 每個地域中的標籤信息不互通,例如在華東 1 地域創建的標籤在華東 2 地域不可見。

 解綁標籤時,如果解綁之後該標籤已經沒有綁定的資源,則該標籤會自動被刪除。

綁定標籤:

登錄 雲服務器管理控制檯。

在左側導航欄中,選擇需要添加標籤的資源,如 實例、雲盤、共享塊存儲、快照列表、鏡像 或 安全組。

選擇地域。

在資源列表中,選中一個或多個需要綁定標籤的資源。

單擊列表底部的 編輯標籤。如果資源是 實例,選擇列表底部的 更多 > 編輯標籤。

在 編輯標籤 對話框裏,

 如果選中的資源已創建過標籤,單擊 已有標籤,並選擇可用的標籤。

 如果選中的資源沒有創建過標籤,單擊 新建標籤,並輸入 鍵 和對應的 值。輸入時應注意:

 鍵 是必需的,而 值 是可選的,可以不填寫。

 鍵 不能是 aliyun、http:// 、https:// 開頭的字符串,不區分大小寫,最多 64 個字符。

 值 不能是 http:// 或 https://,可以爲空,不區分大小寫,最多 128 個字符。

 同一個資源,標籤鍵不能重複,相同標籤鍵(Key)的標籤會被覆蓋。

 如果一個資源已經綁定了 10 個標籤,已有標籤 和 新建標籤 會失效,需要解綁部分標籤後才能再綁定新的標籤。

單擊 確定,完成標籤綁定。

完成標籤綁定後,可以使用這個資源的 編輯標籤 功能或 ECS 管理控制檯左側導航欄的 標籤管理 查看標籤是否綁定成功,也可以單擊資源列表上方的 標籤 按鈕篩選資源。

根據標籤篩選資源:

登錄 雲服務器管理控制檯。

在左側導航欄中,單擊 標籤管理。

選擇地域。

在搜索框裏輸入某個標籤鍵(Key),並單擊 搜索。

解綁標籤:

如果某個標籤已經不再適用於資源管理,可以解綁標籤與資源。解綁後,如果標籤已經不再綁定其他資源,標籤會自動刪除。

 可以使用 刪除標籤 功能單個或批量解綁標籤與實例。

阿里雲目前僅爲實例提供了這個功能。其他類型的資源沒有這個功能。

 可以使用 編輯標籤 功能逐個解綁標籤與資源。

一次最多隻能解綁 5 個標籤。

5) 企業控制檯

在以前我們公司沒到年終的時候內部經常需要盤點資源使用情況,研發部用了多少資源,測試部用多少資源,每個部門的費用是多少?哪個部門費用開銷最大?在以前傳統IDC架構中,這些都沒有專門系統來管理,只能是一個部門一個部門進行盤點,excel各種統計費時費力,還經常出錯。雲上我們通過企業控制檯就輕鬆搞定這一問題。企業控制檯提供面向企業客戶的雲上資源管理、人員管理、財務管理等企業上雲綜合管理服務。區別於經典管理控制檯獨立操控、配置雲產品的方式,企業控制檯以統籌管理爲出發點,幫助企業以公司、部門、項目等組織關係,規範企業操作流程,幫助企業管理企業上雲的人、財、物。企業控制檯主要包含運維管理和財務管理兩個重點功能。

運維管理:

 集中的用戶管理(支持Member與Guest兩類用戶)

 集中的權限管理

 資源組管理

 資源組內部用戶權限管理

 資源分組運維操作

財務管理:

 多個獨立雲賬號的財務關聯(支付賬號、資源管理賬號)

 多賬號信用額度劃撥

 多賬號現金額度劃撥

 財務主賬號優惠額度共享

 發票開具管理

 分組財務對賬

當前版本支持的雲產品包括ECS、RDS、SLB、CDN四款基礎雲產品,據瞭解更多雲產品陸續接入中。

主要業務場景

按照企業組織架構劃分場景:

企業可以根據組織架構,按組織劃分資源組,每個資源組配置獨立的雲資源,同時給每資源組設置不同的資源管理員。同時,企業主賬號可以管理所有的資源實例。例如:我們企業,下設財務部,研發部,測試部,運營部。在資源組設置中,可以設置對應的財務部資源組,研發部資源組,測試部資源組,運營部資源組。此場景中,企業、雲資源、人員權限管理架構圖如下:

請輸入圖片描述

編輯

請點擊輸入圖片描述

按照組織架構+業務項目劃分場景:

企業中某個部門可能有多個項目,多個項目的資源需要分開結算,且分屬不同管理員進行管理,那麼可以針對某個部門或企業中的多個項目,建立多個資源組,針對不同的資源組,設置不同的管理員進行管理。同時,企業主賬號可以管理所有的資源實例。假設企業A,下設財務部,研發部,運營部,在資源組設置中,可以設置對應的財務部資源組,研發部資源組,同時,針對研發部的兩個不同項目,可以設置項目一資源組,項目二資源組。此場景中,企業、雲資源、人員權限管理架構圖如下:

請輸入圖片描述

編輯

請點擊輸入圖片描述

資源組報表

企業控制檯提供了將資源進行分組能力,這裏將提供對應的報表查詢。

請輸入圖片描述

編輯

請點擊輸入圖片描述

資源組報表根據資源組管理中的分組資源,進行財務對賬的拆分,數據展示在報表中。

請輸入圖片描述

編輯

請點擊輸入圖片描述

可以切換賬期區間查看趨勢,也可點擊資源組查看實例明細,如下圖

請輸入圖片描述

編輯

請點擊輸入圖片描述

注:資源組報表中,針對賬號下設置的資源組,僅顯示該資源組中包含的產品的信息。

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章