文章目錄
- 一、前言
- 二、搭建電商網站Demo
- 三、ADB數據庫配置
- 四、SLS配置
- 五、DataWorks大數據處理
- 5.1.開通DataWorks(已開通跳過)
- 5.2.創建工作空間
- 5.3.新增RDS數據源
- 5.4.新增Loghub數據源
- 5.5.新增ADB數據源
- 5.6.創建業務流程
- 5.7.數據同步-customer表(從RDS同步到ADB)
- 5.8.數據同步-product表(從RDS同步到ADB)
- 5.9.運行業務流程並檢查數據同步
- 5.10.數據同步-weblog表(從SLS同步到ADB)
- 5.11.ETL-UDF開發
- 5.12.創建日誌結果表mc_weblog
- 5.13.ETL-數據開發
- 5.14.數據同步-weblog結果表(從MC同步到ADB)
- 5.15.生成ADB中的weblog日誌數據
- 六、數據分析及QuickBI展示
一、前言
本文整理自阿里雲最佳實踐!方便自己學習用,侵刪!
本文以電商行業爲例,將業務數據和日誌數據同步到ADB之後通過QuickBI做快速可視化展現,其中對業務場景數據的ETL採用MaxCompute處理。本文提供全流程完整的Demo演示,可作爲客戶、架構師PoC驗證使用。
應用範圍
- 互聯網行業、電商、遊戲行業等網站、App、小程序應用內BI分析場景。
- 可擴展到各類網站BI分析場景使用。
方案架構
公司在數據化建設中後期,數據結構非常複雜,數據量非常大,大量數據需要先進行ETL,本方案通過數據集成把業務數據和日誌數據同步到MaxCompute進行ETL後,再同步到ADB數據分析,之後使用QuickBI進行快速可視化建立用戶畫像等。
方案優勢
- 以ADB+ QuickBI快速實時數據分析的核心能力爲切入點,將客戶的業務數據、日誌數據引導至阿里雲的日誌服務和分析性數據庫。
- 融合阿里雲的日誌服務SLS的生態,增強用戶體驗(如無縫對接Blink、Elasticsearch、RDS、ADB、EMR、dataV 等產品)。
- 通過MaxCompute、ADB強大的數據加工和分析能力,極大的降低了用戶大數據平臺建設的門檻,輕鬆解決了海量數據的計算問題,同時有效降低企業成本並保障數據安全。
- 與第三方開源生態無縫對接,在不侵入用戶應用的情況下傳輸日誌到SLS,降低
用戶使用門檻。
Tips:案例源碼下載 https://code.aliyun.com/best-practice/106/repository/archive.zip?ref=master。
後面配置需要用到AK/SK,我們在這裏首先配置AK/SK備用。
二、搭建電商網站Demo
2.1.創建專有網絡VPC
步驟3 登錄阿里雲控制檯(https://console.aliyun.com/)
2.2.創建並配置ECS
創建ECS實例
步驟1 登錄雲服務器ECS控制檯(https://ecs.console.aliyun.com)。
步驟2 在左側導航欄選擇實例,地域選擇爲華東2(上海),並單擊創建實例。
步驟3 在自定義購買模式下,配置相關參數。
參考下表,配置基礎配置相關內容。
配置完成,單擊下一步:網絡和安全組。
步驟5 在綁定彈性IP對話框中,選擇已創建的彈性IP,並單擊確定。
2.3.創建RDS數據庫
步驟1 登錄雲數據庫RDS控制檯(https://rdsnext.console.aliyun.com)進入實例列表,單擊創建實例。
步驟4 等待創建完成後(約3~5分鐘),單擊數據庫實例操作列下的管理,進入數據庫管理頁面。
2.4.電商網站初始化
步驟1 登錄ECS控制檯,拷貝彈性公網IP。
步驟2 在瀏覽器中使用彈性公網IP訪問,進行電商網站安裝。
2.5.構造用戶數據
說明:由於原有用戶數量較少,本文爲了實驗方便構建部分用戶數據。
步驟1 登錄RDS控制檯,進入之前創建的實例。
三、ADB數據庫配置
3.1.創建ADB數據庫實例
步驟1 登錄阿里雲分析性數據庫MySQL版的控制檯,本文地域選擇華東2(上海),登錄地
址參見(https://ads.console.aliyun.com/adb/cn-shanghai/instances)。
步驟2 選擇3.0集羣列表,並單擊新建集羣。
步驟3 選擇按量付費模式,並參考下表,配置相關參數。
配置完成,單擊立即購買。
點擊去開通。
步驟4 返回管理控制檯3.0集羣列表頁面,耐心等待大概20-30分鐘,可查看到實例狀態爲運行中。
3.2.創建ADB賬號
步驟1 單擊實例名稱,進入管理頁面。
步驟2 創建數據庫賬號。
3.3.創建數據庫
步驟1 打開ADB實例詳情頁,查看ADB集羣的VPC地址,並記錄。
3.4.創建數據表和日誌表
步驟1 使用DMS打開ADB。
步驟2 創建用戶表(customer),選擇SQL操作> SQL窗口,輸入以下SQL語句後,單擊執行,具體SQL代碼參見democode。
3.5.添加白名單
四、SLS配置
4.1.創建OSS Bucket
步驟1 登錄阿里雲控制檯(https://console.aliyun.com/)
步驟2 通過產品與服務導航,定位到對象存儲OSS,單擊進入對象存儲管理控制檯。
步驟4 在創建Bucket對話框中,參考以下說明,配置相關參數。
- Bucket名稱:自定義
- 區域:本文中選擇華東2(上海)
- 讀寫權限:公共讀寫
配置完成,單擊確定。
4.2.開通SLS日誌服務
步驟1 登錄SLS日誌服務控制檯(https://sls.console.aliyun.com/#/),創建日誌服務的Project。
創建成功,點擊取消。
4.3.WebTracking配置
步驟1 WebTracking
使用瀏覽器打開頁面:https://help.aliyun.com/document_detail/31752.html
單擊下圖紅框標註的位置。
步驟2 複製頁面上的全部內容,另存爲loghub_tracking.js文件,詳見附件中的loghub-tracking.js文件。
步驟3 將loghub-tracking.js文件上傳OSS
打開OSS控制檯(https://oss.console.aliyun.com/overview)。
找到之前創建的buckettests-121,點擊文件管理-上傳文件,文件ACL選擇公共讀,將要上傳的文件拖入到紅框4的位置。
詳細幫助參見:https://help.aliyun.com/document_detail/29008.html
4.4.magento系統開啓日誌採集
參數說明詳見 https://help.aliyun.com/document_detail/31752.html。
步驟3 在HTML Head的ScriptsandStyleSheets處,插入如下內容後點擊Save Configuration。
4.5.查看日誌數據
步驟1 打開SLS頁面:https://sls.console.aliyun.com/lognext/profile。
步驟2 找到之前創建的Project,本文是sls-test-121。
五、DataWorks大數據處理
說明:對於數據化建設中後期的公司,數據結構複雜、數據量巨大、ETL功能複雜的情況,推薦使用MaxCompute進行復雜ETL加工後再同步到ADB,再使用QuickBI進行分析。
5.1.開通DataWorks(已開通跳過)
步驟1 登錄阿里雲管理控制檯(https://home.console.aliyun.com)。
步驟2 通過產品與服務導航,定位到DataWorks,單擊進入DataWorks管理控制檯。
步驟3 首次開通DataWorks服務前,需先填寫AK信息。在DataWorks頁面,單擊前往填寫AK。
步驟4 在安全提示對話框中,單擊繼續使用AccessKey。
5.2.創建工作空間
步驟1 如果之前沒開通MaxCompute按量付費,按照引導開通服務;如果已開通直接跳到下一步。
5.3.新增RDS數據源
5.4.新增Loghub數據源
5.5.新增ADB數據源
5.6.創建業務流程
步驟1 進入DataStudio(數據開發)進行數據開發。
5.7.數據同步-customer表(從RDS同步到ADB)
步驟1 打開上一節創建的業務流程,把數據集成任務拖入工作窗口。
5.8.數據同步-product表(從RDS同步到ADB)
步驟1 在業務開發頁面,再拖入一個數據同步節點。
5.9.運行業務流程並檢查數據同步
5.10.數據同步-weblog表(從SLS同步到ADB)
5.11.ETL-UDF開發
說明:本節介紹使用UDF(JAVA)進行自定義函數開發把ip地址轉化爲國家、省、市等信息(本文做開發流程演示,用戶可以參考開發其他自定義函數)。UDF全稱爲User Defined Function,即用戶自定義函數。MaxCompute提供多種內建函數來滿足您的計算需求,同時您還可以通過創建自定義函數來滿足不同的計算需求。參考官方文檔安裝MaxComputeStudio的IDEA插件,並連接項目空間(前置步驟必須完成)。
MCStudio介紹
https://help.aliyun.com/document_detail/50889.html
IntelliJIDE安裝
https://help.aliyun.com/document_detail/50891.html?spm=a2c4g.11186623.6.934.6ed675c4KeGBvW
MCstudio插件安裝
https://help.aliyun.com/document_detail/50892.html?spm=a2c4g.11186623.6.935.301cc226OYB3Kf
select getaddr(“42.120.75.131”);
5.12.創建日誌結果表mc_weblog
步驟1 打開DataWoks的數據開發界面,新建ODPSSQL。
5.13.ETL-數據開發
5.14.數據同步-weblog結果表(從MC同步到ADB)
5.15.生成ADB中的weblog日誌數據
步驟1 爲了更加貼近真實的客戶場景,這裏對ADB中的weblog表通過腳本的方式新增10萬條記錄,SSH連接到之前創建的ECS(參見2.2章節)。
步驟3 安裝所需要的python包,先執行:
pip install --upgrade setuptools==30.1.0
再執行:
pip install -r py_requests.txt
py_requests.txt詳見democode。
六、數據分析及QuickBI展示
6.1.開通QuickBI服務
步驟1 登錄QuickBI控制檯(https://das.base.shuju.aliyun.com/console.htm),開通QuickBI服務,首次使用可以申請30天免費試用,本次測試申請了QuickBI高級版。
6.2.添加數據源
步驟1 登錄QuickBI控制檯(http://das.base.shuju.aliyun.com/home),單擊數據源。
6.3.添加數據集
步驟1 登錄控制檯(https://das.base.shuju.aliyun.com/workspace/schema)。
6.4.添加儀表板
步驟1 登錄QuickBI控制檯(https://das.base.shuju.aliyun.com/workspace/dashboard),單擊新建儀表板。
6.5.數據分析-用戶地域分佈
6.6.數據分析-用戶年齡分佈
6.7.數據分析-用戶畫像
6.8.展示頁面