百舸實踐之「埋點數據深度治理與應用」 | 京東雲技術團隊

一、背景

隨着公司和業務的不斷髮展,百舸平臺也從單一內容投放轉向了以流量和數據爲基礎的流量運營模式。在這個轉變過程中,數據深度治理與應用的重要性尤爲凸顯,在數據深度治理過程中,需要將用戶行爲數據、投放素材以及投放效果三者緊密的串聯起來。數據深度治理和應用,一方面滿足了當前精細化運營的需求,另一方面實現高效資源配置、驅動高質量決策提供數據支撐。

二、數據現狀

下圖是對數據深度治理之前數據鏈路的簡單梳理

從上圖可以看出,百舸投放引擎,依託樂高、魔笛等上游系統,將素材投放到金融APP/H5等頁面。用戶瀏覽和點擊之後,將曝光和點擊數據上報到奇點,最終落庫到離線數倉。這個鏈路並沒有實現數據的閉環,很明顯存在以下幾個問題:

1.數據採集不全:僅有通過樂高搭建的金融APP原生頁面有埋點上報,其他原生頁以及H5頁沒有進行埋點上報。

2.數據分析能力不足:埋點數據落到數倉之後,僅僅是做了保存,並沒有產生什麼價值,業務各自去數倉加工自己需要的報表,平臺不知道總流量,運營不知道不同位置的投放效果等。

3.數據驅動決策能力爲零:缺少基於用戶行爲數據,反向賦能平臺豐富投放策略(頻控、量控、降權、賽馬等),助力運營決策和調整投放策略。



三、數據深度治理與應用

3.1 制定埋點規範&推動埋點上報

  1. 僅金融APP原生頁面有上報曝光和點擊數據 2. 沒有統一的埋點規範 3. 離線和實時數倉解析模型不一致

因爲百舸埋點規範的缺失,以及很多頁面也沒有上報埋點,導致業務和運營想使用一些百舸的高級策略時,無法在他的場景使用。因此,制定百舸埋點規範以及推動上游進行埋點上報,就成了必要的任務。另外,在排查埋點數據過程中,也發現有些曝光、點擊數據離線指標有,但是實時指標沒有。所以,還需要推動離線和實時數倉解析模型保持一致性。

3.1.1 制定埋點規範

在制定埋點規範之前,首先要了解清楚當前埋點上報的case,我們協同數倉、樂高、奇點等相關團隊,一起梳理當前鏈路埋點上報以及數倉的解析模型。本着不重複造輪子和上游改動成本最低的思想,協調奇點申請了百舸埋點專屬擴展字段resdata,制定了原生頁以及H5頁埋點上報規範V1.0版本。上游調用方,無論是爲原生頁服務,還是爲H5頁服務,僅需根據埋點規範,把百舸投放引擎返回的埋點字段resdata上報到奇點,就能使用百舸所有基於用戶數據驅動的投放策略。

H5上報示例:

// val.resdata爲返回到前端的CMS原始埋點數據,格式爲JSON字符串,需轉成JSON,channelName,matid,activityName,ordid爲業務方自己的數據 
:data-qidian-ext="JSON.stringify({channelName,resdata:JSON.parse(val.resdata),matid:val.activityName,ordid:val.sort})"



3.1.2 推動埋點上報

有了埋點規範,如何推動業務系統進行埋點上報吶?

首先,我們找到一些新接入的業務系統按照規範進行埋點上報,接入過程中如有發現規範問題,及時修正。當埋點規範在生產得到有效驗證之後,根據線上流量倒序,排查出所有沒有埋點上報的資源位,逐一推進上游系統改造,這個過程是最煎熬,也是最有助於成長的。

另外,爲了減少上游接入的成本,以及聯調階段,能夠快速排查埋點問題,開發了“埋點數據校驗”小工具,從最初需要業務研發、百舸研發、數倉、奇點等多方參與且耗時較長的排查問題的方式,轉變爲業務研發或百舸研發“一鍵”排查的方式。極大的提升排查問題的效率,減少接入方的接入成本,極大的提高上游系統埋點接入的速度。

下圖爲埋點數據校驗小工具示例圖:



3.1.3 數據解析模型治理

整合離線數倉與實時數倉的解析模型,實現了底層曝光和點擊等原始數據的一致性。

在埋點數據排查以及推動埋點上報的過程中,我們發現離線和實時數據不一致的問題,比如有些曝光數據離線有,而實時數據沒有。排查結果發現隨着需求的迭代,離線和實時數據解析模型存在不一致的現象,因此,一方面推動離線和實時數倉優化解析模型,雙方達成一致;另一方面,爲防止以後再次出現不一致的現象,我們在埋點規範上,也專門背書了各相關方,涉及到修改解析模型的事情,需要拉起各方一起評估和迭代數據解析模型。

3.2 豐富數據分析能力

3.2.1 豐富數據指標

數據治理之前,平臺僅有資源維度的曝光和點擊指標,業務都是各自去離線數倉加工自己所需要的數據看板和報表。

數據治理之後,平臺可提供一下基礎指標。

  1. 資源位維度曝光、點擊、CTR等

  2. 資源位維度流量和在投素材排名等

  3. 資源維度曝光、點擊、CTR等

  4. 資源維度當日實時曝光、點擊、CTR等

另外,除了平臺的一些基礎指標之後,也加工了很多賦能平臺投放策略的不同維度的離線和實時指標,比如:自然日的實時曝光、自然周/月的離線曝光,PIN維度的實時和離線曝光和點擊等

3.2.2 動因分析

運營的每一次對資源位、流量池、AB、資源等修改,都會和投放效果數據進行關聯,通過查看投放效果和當天修改內容,即可分析出修改內容對投放效果的影響



3.3 數據驅動策略能力建設

有了豐富的數據之後,除了直觀的數據看板以及數據分析之外,如何將數據價值最大化,給系統賦能就成了我們要思考的問題?

以下是平臺基於數據驅動的投放策略介紹:

3.3.1 頻控量控

頻控: PIN維度曝光數據指標,支持自然日、自然周、自然月三個維度頻控,當觸達任意一個條件,資源就會被頻控,不再給用戶下發

量控: 資源維度曝光數據指標,支持累計曝光上線、自然日曝光上限,觸達其中一個條件,資源就會被量控,不再給用戶下發

置頂量控: 資源維度曝光數據指標,週期內曝光達到條件之後,此資源不再置頂,優先級下調

3.3.2 素材實驗

素材實驗組維度的數據指標,支持賽馬實驗、AB實驗、量化擇優實驗和算法擇優實驗。其中AB實驗、量化策略、算法模型等埋點數據都是基於數據深度治理之後,以幾乎零成本即可將埋點上報,並自動解析到百舸基礎埋點數據底表裏。

3.3.3 疲勞降權

疲勞降權: 和頻控不同的是觸達曝光和點擊的配置條件之後,資源仍然會繼續下發,優先級下調。支持指定週期,PIN維度曝光和點擊兩個指標的且或關聯。觸發降權後,指定降權生效週期內優先級下調。

3.3.4 活動頻控

活動頻控: 活動+PIN維度的曝光指標,百舸投放時,不同位置的資源會存在投放同一個活動的情況,配置之後,活動曝光達到頻控條件,所有相關資源均不會下發

3.3.5 流量池分流

流量池分流: 多個流量池,可以根據資源位的PV進行分流,支持長期、指定週期兩種週期內的分流

3.3.6 CTR排序

CTR排序: 與一般投放策略不同的是,此策略能達到優者更優的效果,效果越好,優先級越高,進而最大化提升單位流量內的CTR。



以上投放策略有的是在數據治理以前就有,但是受限於很多投放位置沒有上報埋點,導致無法使用,有些是數據治理之後新開發的。但是,他們之所以能夠被廣泛使用,都是埋點的標準化,全位置埋點上報,以及離線和實時數倉基礎模型統一爲大前提。基於百舸最底層最基礎數據底表,能夠快速的加工任意所需要的業務指標和數據看板,進而促進百舸平臺數據驅動決策能力的建設。

四、系統架構

下圖爲經過深度治理和應用之後數據和投放服務的鏈路

五、總結&思考

5.1 有關數據的思考

數據是一個平臺的核心競爭力,通過埋點規範治理,推動數據上報,統一離線和實時數倉解析模型等方式。使平臺從簡單的曝光和點擊數據到規範化的全鏈路的數據閉環,這一過程充分體現了數據價值挖掘與利用的重要性:

1.數據閉環的意義: 建立數據閉環意味着從數據採集、處理、分析到反饋優化形成完整的鏈條,這樣可以實時監測投放效果,確保業務策略能夠基於真實用戶行爲進行動態調整,從而提升資源利用率和投放精準度。

2.埋點治理的價值: 通過對埋點數據進行標準化和規範化管理,不僅可以保證數據的質量和一致性,還能提供更多維度和深度的用戶行爲洞察,爲精細化運營提供有力支撐。

3.豐富投放策略的產生: 基於豐富的數據衍生出的頻控量控、素材實驗、疲勞降權等策略,這些都是數據驅動決策的具體體現。頻控量控可以幫助平衡用戶體驗與營銷目標,避免過度打擾;素材實驗則可以根據用戶對不同素材的響應情況動態優選推廣內容;疲勞降權則有助於均衡各投放內容的曝光,避免用戶產生厭倦,提高轉化率。

總之,數據是平臺和企業的核心資產之一,它不僅揭示了過去的行爲模式,更能預測未來的趨勢。數據能力的不斷提升將幫助平臺更好地理解用戶、優化產品和服務,實現精準營銷和個性化推薦,從而提升業務轉化,爲業務賦能。通過對平臺數據的深度治理與應用,我們真實的看到了數據如何從單一的展示指標轉變爲賦能業務增長的重要驅動力。

5.2 百舸數據應用還能做什麼

流量預測: 當前正在探索如何通過流量的錄製和回放,以及對比相關數據,來預測不同位置、不同資源的流量,已達到運營修改投放素材和策略之後就能夠通過預測來了解修改之後的效果。

動因分析: 通過資源的修改記錄和流量數據的關聯,運營可以清楚的知曉此次修改,對真實流量的影響,進而指導運營調整投放策略。

作者:京東科技 韓非

來源:京東雲開發者社區

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章