大數據實訓平臺

第一章 平臺介紹
1.1 架構介紹
大數據競賽平臺採用私有云系統建設,基於私有云環境架構建設大數據競賽系統,結合當今大數據形勢、主流競賽設備、技術在數據挖掘與分析等方向爲學校提供全面的競賽環境。通過動手實際操作,強化學生對大數據技術知識的理解,提高集羣部署與數據分析操作能力。整個平臺的運行依託於雲計算系統,將雲計算系統的計算資源與各種教學資源整合在一起,向用戶提供各種服務。具體說明如下:
底層IaaS層爲整合各種IT資源,包括雲資源計算設備、管理控制設備、資源調度設備資源。統一的雲系統將這些設備資源進行虛擬化管理,向上提供基礎服務,包括分佈式數據存儲、計算服務、負載管理和備份等。這一層使用虛擬化技術,將分佈式計算資源進行整合,爲實驗室的運行提供統一管理和使用。
中間的PaaS層爲雲系統業務調度中心,包括統一身份認證管理、各種管理功能、競賽考題資源管理、統一業務訪問控制和數據監控、採集和分析功能等。這一層將各種競賽環境需要的開發支持與管理工具、實驗教學管理工具等有機地整合在一起,對上一層資源工具打包整合進行按需分配。
SaaS層包含了向最終用戶提供的各種服務以及各種資源調用。方式爲通過競賽系統,將競賽考題和所需要的實驗環境進行整合爲用戶進行服務。調用資源的終端可以爲PC、筆記本電腦、各種雲終端和平板電腦。雲系統的優點是可以通過網絡進行訪問,可在教室、辦公室、圖書館、寢室訪問使用,可有效的提高系統使用率。

1.2 競賽平臺
該模塊爲此平臺的核心內容,參賽選手在此進行大數據競賽。當開啓比賽模式後,參賽選手統一在此頁面下進行登錄,登錄後,競賽平臺頁面包含以下主要信息:虛擬機信息、通知欄、當前成績、比賽題目、排行榜、比賽信息等。

登錄界面

競賽系統
1.3 虛擬機信息
虛擬機信息功能是爲選手提供操作機連接服務,爲保證比賽的公平性與安全性,每一支參賽隊伍的賬號密碼都隨機生成。因此,選手需要根據虛擬機的信息進行登錄訪問。與此同時爲方便選手直觀的看到操作及狀態,根據顏色來區分服務是否正常,當虛擬機出現異常情況,可以快速重置恢復到正常狀態繼續比賽。
1.4 比賽信息
比賽信息展示出當前賬號的基本信息情況,一是讓參賽選手瞭解比賽的注意事項,而是讓選手驗證身份是否正確。
1.4.1 比賽題目
比賽題目模塊包含了整個比賽的考覈內容,考覈題按照技術層次進行劃分,以步驟的的形式展示。選手完成每一步時點擊“立即驗證”功能按鈕,系統自動監測出完成用時與完成情況。當子考題全部驗證通過後,即可進行下一步考題。選手可以按照題目進行操作,當遇到串行題目時,選手必須按照賽題設計順序進行操作,當遇到並行題目時,選手可以自行選擇答題順序,答題順序不限。
1.4.2 當前成績
實時統計當前選手的比賽排名、比賽得分及當前步驟用時。讓選手瞭解自己在整場比賽中的信息。
1.4.3 通知欄
實時監控全部競賽選手的比賽狀態,方便選手快速看到大賽整體的得分趨勢。
1.4.4 排行榜
系統自動統計每一支隊伍的總體得分情況,以名次從高到低的順序展示。
1.5 管理平臺
大數據競賽平臺的建設採用B/S架構,用戶通過瀏覽器進行訪問,且支持內網與外網同時訪問。平臺的管理端是針對前端系統設置的對應的管理功能,便於競賽過程中對前端系統的自定義管理。後臺管理包括4項功能,包括:用戶角色、資源管理、比賽管理、控制檯功能。
1.5.1 用戶角色管理
爲滿足教師方便的管理班級學院,平臺提供用戶組織管理功能。其中用戶管理顯示平臺用戶的信息列表,管理端可對平臺用戶信息進行編輯與刪除,根據信息進行用戶模糊篩選,便於管理平臺用戶;角色管理顯示平臺現有角色,用戶可編輯新的角色並賦予角色權限;組織結構管理顯示平臺現有的組織機構,管理端可以也可根據層級分步添加組織、學院、系別、專業、班級,對同級別下的機構進行排序。

用戶管理
1.5.2 控制檯
控制檯功能是幫助管理人員瞭解競賽平臺的整體使用狀況,用戶分佈功能是將平臺的人員按照班級進行統計,活躍用戶能夠統計學習時長最多的選手,還可以通過折線圖監控設備的使用情況,最後爲了方便管理,可以通過此功能遠程關閉服務器。

控制檯
1.5.3 資源監控中心
資源監控中心是爲用戶提供虛擬化管理功能,通過鏡像管理功能可以實現對比賽環境的自定義,自定義內容包括操作系統類型、內置各類軟件服務等信息;虛擬化資源管理功能可以查看比賽隊伍的虛擬機狀態;智能考覈管理可以根據比賽的每個知識點定製化檢測方式,使系統能夠根據智能考覈設定的檢測方式,自動判斷選手是否答對了該知識點,典型檢測內容包括文件是否存在、文件內容是否正確、服務狀態是否正常等內容。

資源監控

1.5.4 比賽管理
 隊伍信息管理
管理員在此功能下創建比賽隊伍,創建成功以列表的形式展示。
 監控中心
系統內置檢測工具,對虛擬機的各項服務進行檢測,當存在服務異常時,檢測工具發出報警機制,監控中心以可視化的形式展示出異常狀態,管理員可以快速處理進行重置,保證虛擬機的正常使用,在創建比賽時可以設置該監控服務的開啓與關閉。
 得分規則
按照比賽需求系統實現了按照時間順序扣分和按照名次順序扣分,按照時間順序扣分的機制是每隔定義時間扣除分數的整體百分比,分數低於最低閥值時停止扣分,保證比賽成績的合理性;按照名次扣分的機制是通過該題的提交正確次序先後進行扣分,遞減分數的整體百分比,分數低於最低閥值時停止扣分,保證比賽成績的合理性;
 比賽環境
在新建比賽時,比賽環境功能需要管理員來設置,對於本次比賽所用到的虛擬機直接映射到資源管理中心下的鏡像管理,選擇對應的環境,同時可以對虛擬機的配置進行調整,確保選手操作體驗效果良好。像展示環境只提供參考信息可以設置用戶無權限操作,避免破壞比賽提示信息。
 得分統計
爲了方便統一查看全部隊伍的得分情況,科技研發得分排行耪功能,與之前的得分榜不同的是,該功能能夠展示全部隊伍的每一步得分情況,榜單縱向爲各參賽隊伍,橫向是全部考覈體系的步驟展示,分數根據具體得分情況實時變化。

排行榜
1.6 技術優勢
1.6.1 AI智能分析
科技自主研發智能考覈功能,以“AI+大數據”技術實現系統自動檢閱機制,管理員在後臺的智能考覈模板下編寫檢測腳本,選手提交檢測後,系統自動檢測操作結果與腳本的一致性,判定結果。優勢在於腳本的靈活性,可以根據不同的考覈內容去設計對應的檢測代碼,其次節省的手動批閱的時間與精力,最後就是結果的實時展示,完美的遵循競賽“公平、公正、公開”原則。
1.6.2 多維數據展示
根據歷屆的競賽進行分析觀衆與裁判只能等待最終的比賽結果,在比賽過程中耗費了大家的時間,而且只通過一個分數很難判斷出學生的真實水平與知識漏洞。
因此,爲解決廣大用戶的困擾,科技大數據競賽平臺設計了選手競賽過程以可視化的形式展現,呈現形式爲金字塔或者星球。座金字塔每一層代表着一個步驟,當選手完成一個步驟後,以動畫的形式搭建一層,星球展示頁面下的每一個星球代表一個實驗步驟,當選手完成一個步驟後,宇航員會前往下一顆星球。同時,當選手首次完成一個步驟後,會有語音播報效果通知大家,後續完成的會有幾秒鐘的動畫展示完成效果,效果一直常駐。界面兩側展示出步驟完成度、通知欄、得分排行榜。步驟完成度會將完成步驟的隊伍展示出來,每隔10秒刷新一次。

金字塔

星球展示
1.6.3 便捷式操作平臺
爲了保證選手不受競賽操作設備的影響,科技提供了統一的操作環境,利用Web-Console技術將虛擬環境集成在操作頁面內,選手可以直接在競賽平臺下答題,使得必備的工具與虛擬機切換等問題得到完全解決,從根本上解決的競賽自帶設備的問題。
操作檯
1.7 賽題設計
新增賽題功能的設計理念是靈活、便捷、科技。題綱層次分爲三級,選手在前臺可以直觀地瞭解競賽整體考覈內容。除此之外,考覈條件支持串行添加與並行添加。
像大數據分析工具Hive是需要搭建在底層的Hdfs系統上,所以這樣的考覈條件是有先後順序性的,先搭建Hdfs分佈式文件系統,再去構建數據倉庫,類似於這樣的考覈條件我們選擇串行。
像大數據分析工具Hive與數據庫Hbase都是安裝在Hdfs系統上,且彼此之間的安裝互不影響,這種情況選手無論先安裝任何一個組件都是不影響結果的,類似於這樣的考覈條件我們需要選擇並行。

1.8 賽題樣例
1.8.1 競賽題庫
針對於大數據競賽平臺的樣題,目前具有4套完整的真實題庫:
序號 競賽名稱 競賽核心 競賽說明
1 2018年第一屆全國大學生大數據技能競賽(高職組) 電商運營分析 本次競賽數據集爲某購物平臺在“雙11”之前和之後的過去6個月內的匿名用戶的購物日誌以及指示它們是否是重複購買者的標籤信息。通過大數據能力驅動電子商務運營的精細化,更好的提升運營效果,提升業績。
2 2019年第二屆全國大學生大數據技能競賽(高職組) 商品銷量分析 本次競賽數據集爲某購物平臺的商品數據、訪問量數據、用戶信息數據等。通過大數據能力分析出熱門商品與流失客戶羣體,從而進行鍼對性服務活動提升銷量。
3 2019年全國大學生大數據技能競賽(本科組) 1.共享單車數據分析
2.人口收入數據統計 1.本數據爲某年某段時間某地區的共享單車數據集。通過對共享單車的騎行規律,用戶羣體,單日活月用戶等數據的分析,給出運營思路和方法上的建議,對共享單車的發展有一個整體的把握。
2.本數據爲某人口普查公開數據數據庫抽取而來,該數據集類變量爲年收入是否超過50k$,屬性變量包含年齡、工作類型、教育程度等屬性,統計對各因素對收入的影響。
4 2019年首屆“智警杯”全國公安大學生大數據技能競賽 電信網絡詐騙分析 其預測分析的數據基礎來源既有機關企業的宏觀數據,亦有各當事人的微觀數據。基於大數據的模型與算法預測電信網絡詐騙,能夠積極促進研發預測警務系統和警務軟件,促進公安數據信息系統從查詢統計功能向預測功能轉變,是實現預測警務在打擊跨境電信詐騙犯罪中應用的基礎技術建設。

1.8.2 樣題案例
電商數據分析項目:
 任務一:大數據環境搭建
競賽平臺提供Linux環境,將Hadoop、Java、Hive、Zookeeper、Mysql、Hbase等工具的壓縮包放在指定目錄下。選手首先需要對基礎環境進行配置;之後按提示在找到工具壓縮包後可進行解壓,並將解壓後的工具進行配置文件的修改;配置文件修改完成後按大數據集羣啓動順序逐次啓動。
評判規則:在選手完成任務以後,系統自動檢測Hadoop、Zookeeper、Hbase、Hive進程以及通過Web端口檢測進行評判。
評判方法:選手針對每步,點擊答題平臺的檢測按鈕,答題平臺自動檢測相關結果,檢查每步結果。
 任務二:構建數據倉庫、進行數據採集
本數據爲國內某網站2018年4 月15日部分訪問數據,包含了3個字段,共1000個樣本,數據文件及數據格式說明保存於比賽系統虛擬機中。任務二要求參賽者開啓Hive服務,構建數據表,表的結構按照數據類型進行創建,將數據集完整導入Hadoop系統中,並可使用Hive訪問數據。
評判規則:在選手完成任務以後,系統自動檢測Hive中數據存放路徑、數據大小、數據類型
評判方法:選手針對每步,點擊答題平臺的檢測按鈕,答題平臺自動檢測相關結果,檢查每步結果。
 任務三:數據分析
本任務要求參賽者對本數據集進行分析及解讀,通過分析瞭解數據分佈,爲後續結果進行展示。以下分析內容供參考:
實現統計pv:頁面瀏覽量即爲PV(Page View),是指所有用戶瀏覽頁面的總和,一個獨立用戶每打開一個頁面就被記錄1次。
實現統計uv:一天之內,訪問網站的不同獨立 IP個數加和。其中同一IP無論訪問了幾個頁面,獨立IP 數均爲1。因此,這裏我們只需要統計日誌中處理的獨立IP數即可。
流失用戶:瀏覽了網站就不在瀏覽的用戶我們可以稱之爲流失用戶,這裏,我們可以通過用戶的IP進行分組,如果分組後的記錄數只有一條,那麼即爲流失用戶。當然這個定義是我們臨時取得,網站分析的時候,對流失用戶定義更復雜。
新增用戶:通過分析可以知道,該網站的用戶註冊頁面的path爲register,所以當用戶點擊註冊時請求的是register?的即可。
評判規則:在選手完成任務以後,系統自動檢測數據表信息,包括:表存在情況、表結構、表數據等相關內容
評判方法:選手針對每步,點擊答題平臺的檢測按鈕,答題平臺自動檢測相關結果,檢查每步結果。
 任務四:分析結果展示
根據分析的數據結果,得到按要求規定的數據表。然後就可以查看每個表格的數據情況,比如我們要看uv,直接從“UV數據表”獲取,想看新增用戶,就可以從“新增數據表”獲取。
評判規則:在選手完成任務以後,系統自動檢測分析結果與實際結果是否相一致。檢測語句正確率及邏輯性。
評判方法:選手針對每步,點擊答題平臺的檢測按鈕,答題平臺自動檢測相關結果,檢查每步結果。

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章