實時數倉 Hologres:推出計算組實例/支持JSON數據/向量計算+大模型等新能力

阿里雲ODPS系列產品以MaxCompute、DataWorks、Hologres爲核心,致力於解決用戶多元化數據的計算需求問題,實現存儲、調度、元數據管理上的一體化架構融合,支撐交通、金融、科研、等多場景數據的高效處理,是目前國內最早自研、應用最爲廣泛的一體化大數據平臺。

本期將重點介紹

  • Hologres推出計算組實例
  • Hologres支持JSON數據
  • Hologres向量計算+大模型能力
  • Hologres數據同步新能力
  • Hologres數據分層存儲

新功能—Hologres推出計算組實例

計算組實例支持將計算資源分解爲不同的計算組,更好的服務於高可用部署。

應用場景:

  • 資源隔離:針對不同企業場景間相互影響帶來查詢抖動,例如寫寫之間、讀寫之間、大小查詢間的相互影響,以及在線服務、多維分析、即席分析等之間的相互影響;某些大數據引擎並不是存算分離架構通過複製多副本去實現隔離等高成本業務場景。
  • 高可用能力:針對無服務級高可用、 容災和多活的方案,企業通過雙/多鏈路來實現高可用、容災和多活,其中涉及人力、計算資源等高成本業務場景。
  • 靈活擴縮容 :針對企業對業務靈活能力的高訴求:業務流量突然增長能及時擴容扛住流量,在業務低峯時能及時縮容,減少業務資損,降低成本。

功能特性:

  • 天然物理資源隔離:每個計算組之間是天然的物理資源隔離,企業使用可避免計算組之間的相互影響,減少業務抖動等。
  • 按需靈活擴縮容: 計算和存儲高度可擴展,具有雙重彈性,企業可按時或按需拉起(Scale Out);按需熱擴縮容(Scale Up)。
  • 降低成本:基於物理Replication實現,物理文件完全複用,企業可按需彈性使用資源,成本可控制到最低 。

產品Demo演示-計算組實例

跳轉Hologres控制檯,通過SQL創建新計算組並賦予對應的Table group(數據)權限——更改計算組,innit warehouse更改爲剛創建的read warehouse——執行查詢,整個負載就轉到read warehouse上。同時可以按需去啓停計算組,停止或者啓動操作都可以使用SQL實現,也可以在界面上通過可視化的去操作。同時也能夠按需調整計算組的資源,可以在頁面可視化操作或者使用CPO去操作——在計算組不需要使用時及時的釋放,不佔用任何資源。

點擊查看產品 Demo

新功能—Hologres 支持JSON數據

支持列式JSONB存儲,提升查詢效率

應用場景:

  • 查詢效率:對於半結構化不能提前固定Schema,主要是用行存,在大規模數據計算時,需要掃描大量數據的問題。查詢效率要滿足企業業務需求。
  • 存儲效率:對於無法使用列存的壓縮能力,導致壓縮率低,存儲空間大的問題。存儲效率要滿足企業業務需求
  • 數據處理:對於半結構化數據的處理過程相對複雜的問題,需要進行數據清洗、提取和轉換等操作。需要滿足企業更全面的函數支持業務需求。

功能特性:

JSON數據處理方式:JSON作爲常見半結構化數據類型,數據處理的方式有兩種:

  • 導入式,即解析數據結構,將數據按照強schema的方式進行存儲。這種方式的優勢在於存儲到數據庫時已經是強schema的數據,對於查詢性能和存儲性能都較好。缺點在於解析過程中,都需要在加工過程中去把數據轉化成強scheme,喪失了JSON數據的靈活性。如果JSONkey新增或者減少,則需要修改解析程序。
  • 另一種方式是直接將這一層數據寫入數據庫,查詢時用JSON函數做解析。這種方式的優勢在於最大程度的保留了JSON數據的靈活性,劣勢在於查詢性能不佳,每次選用適合的處理函數和方法,開發複雜。

針對JSON數據處理方式,Hologres優化JSON數存儲能力,可以按照其劣勢的方式存儲。JSON數據系統會根據寫入的key和value值推導出可以存儲的數據類型。

  • 靈活易用:有別於方案1的提前將數據強Schema化, 最大程度保留了JSON數據的靈活性。
  • 壓縮率高:使用列式存儲,能夠有效提升壓縮率,節約存儲空間。
  • 查詢性能強:使用列式存儲,減小掃描數據,提高IO效率, 提升查詢效率。

產品Demo演示-列式JSON功能

基於以JSON形式存儲的公開樣例數據,其中包含JSON形式存儲的key value的這種數據,每一行都會有key和value用來表示不同的業務含義。——使用這一段C口去查詢每年每月關閉的issue的數量,系統開始執行——傳統的這種執行方式和查詢方式,一行一行去掃描,把一個個key和value取出來,共耗時55秒。——此時開啓數據列存化,結束後即可查詢,共耗時1.47秒,查詢效率大大提升。

點擊查看產品 Demo

新能力—Hologres向量計算+大模型能力

高性能向量計算,結合大模型構建專屬知識庫

應用場景:

部署企業級大模型知識庫難題:

企業進行模型部署時,會存在計算與存儲資源、資源彈性、大模型部署等成本高的問題;

業務處理語料時,會存在原始語料處理流程複雜, 語料數據較多時,對向量數據庫的寫入能力和實時性有較高要求 ,知識庫問答QPS較高時,對向量數據庫的查詢能力有較高要求等需求 ;

企業在大模型知識庫搭建時,會遇見流程長、涉及產品多,整體架構串聯成本高,架構打通難的問題。

功能特性:

Hologres + Proxima整體優勢:

Proxima爲達摩院自研向量引擎,穩定性、性能優於Faiss等開源產品。 Hologres與達摩院自研向量引擎Proxima深度集成,提供高PQS、低延時的向量計算服務 。其具體優勢爲以下三方面:

  • 高性能: 通過一體化數倉,提供低延時、高吞吐的在線向量查詢服務; 支持向量數據實時寫入與更新,寫入即可查
  • 高易用性: 統一SQL查詢接口查詢向量數據,兼容PostgreSQL生態; 支持複雜過濾條件向量檢索
  • 企業級能力: 向量計算與存儲資源靈活水平擴展; 支持主從實例架構、計算組實例架構,支持計算資源物理隔離,實現企業級高可用能力

Hologres+PAI部署大模型知識庫架構及優勢:

架構主要分爲三個層級

  • 預數據預處理層:針對原始語料數據,經加載分析形成文本Chunks,再經過Embedding向量化,從而生成語料向量數據,最終寫入實時數Hologres中。
  • 文本生成層:針對用戶原始問題,首先將問題Embedding成爲問題向量,從而Hologres中進行Top K向量檢索,
  • 最終生成層:Top K語料作爲大模型輸入,結合大模型其他輸入,包括聊天曆史、Prompt的最終推理,求解出最後的答案。這裏的大模型可以通過機器學習平臺派來進行統一部署。

  • 架構優勢:
  • 簡化模型部署:通過模型在線服務PAI-EAS 一鍵部署LLM大模型推理服務
  • 簡化語料處理與查詢:一鍵語料數據加載、切塊、向量化、導入Hologres ;同時基於Hologres低延時、高吞吐向量檢索能力,爲用戶帶來更快更好的向量檢索服務。
  • 一站式知識庫搭建:無需手動串聯,在一個平臺完成大模型部署、 WebUI部署、語料數據處理、大模型微調。

產品Demo演示-Hologres+PAI部署大模型知識庫

開通Hologres實例,在實例的詳情頁網絡信息中記錄實例的域。點擊登錄實例按鈕,進入HoloWeb——在原數據管理頁面創建一個數據庫,並記錄數據庫戶名——點擊安全中心,進入用戶管理頁面,創建自定義用戶並授權,同時記錄創建用戶名與密碼——進行大模型的部署工作,可以使用PAI-EAS部署一個LLM大模型,記錄大模型調用信息——Demo中使用PAI-EAS部署langchain的WebUI服務,點擊查看web應用,可以進入web UI頁面。在setting頁面中設置Embedding模型,可以設置剛剛部署的LLM大模型,以及Hologres向量存儲。上述文件可以通過Json文件一鍵配置——點擊解析,將相關配置信息一鍵填入。同時點擊Connect Hologres測試連通性——進入upload頁面進行語料數據的處理。上傳語料數據,設置文本切塊相關參數,點擊upload即可將數據導入Hologres向量表中——返回HoloWeb編輯器進行刷新,語料數據已經作爲向量導入到Hologres中。我們回到剛剛的web UI頁面,進入Chat頁面,先試用原生ChaGLM大模型,詢問“什麼是Hologres“,結果並不理想——再使用Hologres對大模型進行微調,詢問相同問題,結果正確——返回langchain chatbot頁面,通過調用信息即可完成上述方案的API調用。

點擊查看產品 Demo

新能力—Hologres數據同步新能力

新增支持ClickHouse、kafka、Postgres等數據源同步至Hologres

應用場景:

  • 同步性能: 企業數據來源多,產生不同數據需求,例如整庫同步、全增量同步、分庫分表合併、實時同步等;
  • 企業搭建數據平臺。需要每個數據源去做一定的適配,因此要實現高性能寫入,開發同學需要具備一定的同步調優能力。
  • 同步成本:數據來源多,客戶端做相應開發會導致開發同學上手成本高;同步性能無法滿足業務需求,短時間內不斷追加資源,成本隨之增加;數據同步時元數據管理難
  • 業務運維:自建數據平臺,開發、調試、部署、運維等整個生命週期,全部都是由開發同學去做管理。其整個過程非常繁瑣,數據不一致整個鏈路需要做一一排查,排查成本較高;某點數據出問題,將會涉及數據做回刷,回刷來源不一樣,導致運維過程非常困難

功能特性:

Hologres數據同步能力概覽

Hologres有着非常開放的生態,支持Flink、DataWorks數據集成、Holo client、JDBC等多種方式將數據同步至Hologres,滿足多種業務的數據同步、數據遷移需求,實現更實時、更高效的數據分析和數據服務能力

  • Flink全面兼容:可以實現數據的實時寫入維表關聯,讀取等
  • DataWorks數據集成高度適配:與DataWorks數據集成做高度適配,例如DataWorks支持的各種數據源,基本上都能夠支持同步到Hologres中。
  • Holo Client、Holo Shipper開箱即用:可以通過Holo Client來實現高性能的數據檢查與高性能點寫更新等。同時Holo Shipper可以實現數據的實例的整庫的遷移。
  • 標準JDBC/ODBC接口:提供標準JDBC/ODBC接口,開箱即用。

持續演進, Hologres數據同步新能力

爲了滿足不同業務需要,Hologres不斷迭代更新數據同步能力,其新能力具有以下特徵:

  • ClickHouse整庫離線遷移:其依託於DataWorks數據集成來實現,整體離線遷移分爲兩大部分:一是元數據自動識別與映射;二是整庫數據一次性同步 ,無需如以前一張表寫一個任務,大大減少開發運維各種不方便地方,實現ClickHouse 數據快速遷移到Hologres中。
  • Kafak實時訂閱:Kafak實時訂閱可以通過兩種方式實現:一是Flink訂閱Kafka,實時寫入Hologres中,在數倉分層中實現實時數倉的流式ETL;二是通過DataWorks數據集成實時消費Kafka,消息變更自動同步,隨之直接自動寫入Hologres中,Kafak數據可以實現快速接入。
  • PostgreSQL實時同步 :通過DataWorks數據集成將PostgreSQL數據實時同步到Hologres中,不僅支持單表實時同步,在這基礎上也支持DDL能力配置,整庫實時同步,庫和表結構的自動映射,以及全量和實時增量的數據同步大大減少開發同步難題。

產品Demo演示-ClickHouse整庫同步

在DataWorks數據集成界面,配好ClickHouse與Hologres數據源,並對數據源連通性做出檢測,檢測通過可進行下一步——選擇ClickHouse中需要同步的表,選擇高級配置,例如獨端任務速度,併發度,運行等配置勾選表並一次性同步到Hologres中——目標表的映射,點擊批量刷新按鈕實現表結構的映射——啓動同步任務,等待兩分鐘左右——數據同步完成後,頁面已經刷新,可以根據寫入數據條數去對上游數據進行驗證,看數據是否都通過——Hologres做數據驗證,可以對錶做一個簡單的查詢,查詢完成。

點擊查看產品 Demo

新能力—Hologres數據分層存儲

應用場景:

  • 電商訂單:近幾個月訂單高頻訪問,RT敏感度高 ;歷史數據訪問頻次低,延時不敏感
  • 行爲分析:近期流量數據的高頻查詢,時效性要求高 ;歷史數據查詢頻次低但要求隨時可查
  • 日誌分析:近期數據高頻查詢 ;歷史數據需長時間保存以保證後續的審計和回溯工

功能特性:

  • 標準存儲: 標準存儲爲全SSD熱存儲,是Hologres默認存儲,主要適用於全表數據被頻繁訪問,且對訪問性能有較高要求的場景。
  • 低頻訪問存儲: 時間推移訪問頻度也會降低,而逐漸變爲冷數據。例如某些日誌數據在今年後不能訪問,隨之需要將數據從標準存儲遷移到低頻存儲來降低成本,若基於基於規則的自動的數據冷熱轉換的能力,那我們就會可以大大的降低我們的維護成本,適用於數據體量大,訪問頻次低,需要減少存儲成本的場景
  • 分區動態冷熱分層: 通過動態分區能力設置冷熱分區流轉規則,實現分區的動態冷熱分層 ;並且冷熱分層成本,以北京包年包月爲例,它的標準存儲是一塊錢每GB每月,然後低頻保存儲是0.144元每GB每月,成本上大概是有七倍的差距。性能上基於標準的TPC至ETB的數據測的測試集的結果來看,大概是有一個3到4倍的一個差距。

產品Demo演示-創建冷存表語句及設置分區表

如Demo中建表語句,在建表的時候設置一個science table property表明,點擊運行就可以創建一張冷存表——通過查詢HG table storages status這張系統表來看下錶的存儲策略是否符合預期。——表的進度狀態是cold,這是一張存表。對於系統裏面已經存在的這種標準存儲的熱存表,通過單獨執行,按照命令,指定表點擊運行,設置冷存成功——表的存在狀態中數據都已經完整搬遷到冷存低頻存儲介質裏——對於分區表分兩大部分來看,第一部分是創建一個普通的分區表的冷存表,那在創建分區表這個語句中同樣設置這個表的storage mode ,分區表的分區子表會默認記成庫表的存儲策略,不需要單獨設置。——另一方面想要修改某個分區的屬性,在假設我們想要修改某個分區的一個屬性,那麼在在在在table property指定分區子表的表名,然後設置存儲策略,把某一個分區子表改成了我們想要的這個冷熱屬性。那對於動態分區表,我們需要額外設置一些其他的屬性。

點擊查看產品 Demo

領取Hologres5000CU時免費試用:https://free.aliyun.com/?pipCode=hologram

領取DataWorks免費試用:https://free.aliyun.com/?pipCode=dide

領取MaxCompute5000CU時免費使用:https://free.aliyun.com/?pipCode=odps

點擊立即免費試用雲產品 開啓雲上實踐之旅!

原文鏈接

本文爲阿里雲原創內容,未經允許不得轉載。

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章