從技術上解讀大數據的應用現狀和開源未來

論文導讀: 這篇綜述論文解讀了2006大數據系統興起以來代表性應用和開源基準測試集。近年來,隨着大數據系統的快速發展,各式各樣的開源基準測試集被開發出來,以評測和分析大數據系統並促進其技術改進。然而,迄今爲止,還沒有就這些基準測試集進行系統調研。因此,本文對當前最前沿的開源大數據基準測試集進行全面總結,闡述其歷史、現狀並展望下一步研究方向。首先,我們從大數據系統的角度對大數據基準測試集進行了定義和分類。隨後,我們回顧了基準測試技術的三個重要方面——工作負載生成技術、輸入數據生成技術和系統評估指標。最後,論文從這三個方面對現有基準測試集進行歸類,並重點描述其中具有代表性的測試集,進而討論未來研究方向,以推動該領域工作的持續發展。

大數據開源基準測試集

1. 大數據系統及開源基準測試簡介

大數據系統通常被分爲三個陣營,如圖1所示:
(1)Hadoop相關係統;
(2)數據庫管理系統(DBMSs)和NoSQL數據庫;
(3)針對圖數據、流數據和複雜科學數據的特殊處理需要的專用系統。

image

圖1. 大數據系統分類與總述

總結歸納了當前流行的開源基準測試集,圖2顯示了這些基準測試集的詞雲圖,其中詞的大小和流行度成比例。

image

圖2. 開源大數據基準的詞云云

2. 大數據基準測試分類及發展歷史

大數據基準測試集的類別:
(1)微基準測試集。這類基準測試集被用於評估單個系統組件或特定系統行爲(或代碼的功能);
(2)端到端基準測試集。這類基準測試集的目的是使用典型應用場景評估整個系統,每個場景都對應一個工作負載的集合。
(3)基準測試集套件是不同的微基準測試集或端到端基準測試集的組合,這些套件的目標是提供全面的基準測試解決方案。

發展歷史:大數據基準測試是一個活躍的研究領域,許多基準測試集在最初發布之後仍在發展,圖3顯示了它們的初始發佈年份。

image

圖3. 大數據基準測試集發佈時間軸

3. 工作負載生成技術

工作負載實現技術:我們將大數據工作負載劃分爲三類:
(1)I / O操作。這些操作在輸入數據或文件上執行(例如,讀、寫、移動數據或新建、刪除文件)。
(2)算法操作。當作爲一種算法實現時,一個工作負載由一個或多個對輸入數據的獨立操作組成。
(3)基本操作(EO)。這些操作要麼是標準的SQL操作符[102],要麼是具有類似語法的操作符(如Pig Latin)。圖4顯示了代表性負載和操作的詞雲圖。

image

圖4. 代表性大數據工作負載的詞雲圖

工作負載提交技術:我們將本文回顧的基準測試集的提交策略分成三類:
(1)預先指定。在許多基準測試集中,工作負載的輸入數據、提交速率和順序都是在執行前指定的。
(2)參數控制。這類基準測試集允許用戶使用參數控制工作負載的執行。
(3)真實日誌驅動。通過使用這種提交策略,基準測試集可以根據真實世界的日誌來真實地復現工作負載。

開放性挑戰:已有的大數據基準並不能完全符合以上三個準則:(1)相關性。鑑別被測系統的典型行爲是實現高度相關性負載的先決條件。(2)可移植性。我們首先從軟件系統(即軟件棧)的角度討論這個準則。(3)伸縮性。爲了評估不同規模的系統,基準測試集應該能夠調整工作負載的規模,同時保證其提交和混合的真實性。

4. 輸入數據生成技術

大數據基準測試中的數據生成器:
(1)現有數據集:許多大基準測試提供固定大小的數據集作爲其工作負載的輸入;
(2)基於合成分佈的數據生成器;
(3)基於真實數據的數據生成器;
(4)混合數據生成器。

開放性挑戰:考慮大數據的數據量和速度,以及不同的數據類型和來源(數據種類),此處有兩個具有挑戰性的關鍵問題:第一個問題是現有的基準測試集可以構建模型來提取某些數據類型(如表格,文本和圖數據)的真實數據集的特徵,但是很少關注其他數據類型,如流、圖、視頻和科學數據。第二個同時也是更具挑戰性的問題是如何評估產生的合成數據的真實性水平。

5. 評估中的指標和性能參數

評估中的指標和性能參數:
(1)通用性能指標包括響應時間、吞吐量、可靠性、可用性;
(2)體系結構指標包括執行週期劃分、處理器計算強度;
(3)價格和能耗指標包括性價比指標、能耗指標。

大數據系統性能參數:
(1)系統配置參數。大數據系統中大量軟件棧和多種編程語言的使用會帶來大量的配置參數。
(2)資源分配參數。當數據中心中部署大數據系統時,計算和網絡資源由不同系統的工作負載共享。

論文原文:2018年發表於服務計算領域頂級期刊TSC: (http://ieeexplore.ieee.org/document/7990174/),圖5顯示了英文原文導讀圖。
中文技術報告:https://mp.weixin.qq.com/s/qW2UPheanJcda_lfuTXyMw

image

圖5. TSC英文原文導讀圖

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章