個推TechDay治數訓練營第四期:企業級標籤體系建設實踐

標籤作爲當下最普遍的數據資產類型之一,對企業洞察用戶畫像、開展精細化運營等具有重要的支撐作用。企業標籤體系的建設並非一蹴而就的,需要結合業務視角進行整體的規劃,更涉及到複雜的數據治理和數據資產管理等工作。

本文對個推TechDay“治數訓練營”第四期進行了回顧,爲大家分享企業級標籤體系的建設方法論、搭建流程及實踐經驗。

課程回顧

當前不少企業都已經或正在投入建設自身的標籤體系,但是由於數據未得到有效治理、缺少整體的標籤體系規劃、未能對標籤數據資產進行持續的運營管理等原因,一些企業在建設標籤體系的過程中仍然面臨標籤數據用不起來、數據經驗無法沉澱等難題。

針對以上情況,個推深度梳理自身標籤體系建設經驗,最終總結出企業級標籤體系建設的方法論,通過簡單五步即可完成高質量標籤體系的構建。

一、確定目標

首先,我們需要根據業務需求來確定標籤體系的建設目標。根據標籤的使用場景,標籤體系的建設目標可分爲業務目標和系統目標兩種。

①業務目標,指的是最終給業務帶來實際收益的目標。比如通過標籤體系的建設和應用,使用戶的次日留存率提升20%。

②系統目標,指的是使用功能和系統性能等方面的目標要求。比如最終建設完成的標籤系統/平臺要能夠支持可視化創建和管理標籤;在性能方面,能夠在1小時內完成千萬級用戶的標籤計算和目標圈選。

二、標籤體系設計

確定了標籤體系建設目標後,接下來要開始標籤體系的頂層設計。這其中,有以下幾個核心問題需要關注:

1.如何確定標籤目錄?

我們建議企業充分結合業務需求和數據資產情況來確定標籤目錄,由“業務+數據”共同驅動標籤的生產。

業務驅動比較好理解,即根據業務訴求來確定要生產的標籤,比如企業爲提升風險識別能力,需要創建“風險賬號”和“黑名單”等標籤;而爲了提升付費轉化率,可以創建“商品偏好”和“價格敏感度”等標籤。

數據驅動是指基於數據資產情況提出標籤需求。一般而言,業務人員更聚焦業務,對於底層數據情況往往瞭解較少。這就需要數據開發工程師、數據分析師等深度介入,從數據資產中挖掘和提煉出有價值的標籤,比如根據場景偏好數據,提煉出常駐地、旅遊地偏好等標籤;根據電商APP端內數據,提煉出消費水平、消費偏好等標籤。

值得注意的是,企業在實際設計標籤目錄和標籤體系的過程中,並不是僅僅依靠單純的業務驅動或單純的數據驅動就能實現,而是需要業務方和數據方不斷溝通磨合,將業務需求和數據資產情況進行匹配,最終完成一份標籤目錄的設計。

經驗總結

關於標籤目錄的確定,經常會遇到以下兩個常見誤區。
誤區一:標籤越多越好。其實業務方並不需要過多的標籤,一般來說20%的標籤就能滿足業務方80%的需求。
誤區二:標籤越高級越好。一些算法工程師或技術人員往往花費大量的時間優化模型,構建複雜的模型標籤。其實,把基礎標籤、規則標籤做好,基本就能滿足業務方的絕大多數需求。

因此企業在建設標籤體系的過程中需要考慮投入產出比,評估標籤的實際應用需求強度、衡量不同標籤對業務的提升效果。

2.當前數據基礎能否支撐標籤體系構建?
數據建設是標籤體系的基石,企業只有打好數據基礎,才能構建出一套高質量的標籤體系。因此在進行標籤體系的搭建之前,企業需要對數據進行綜合治理,提升數據的質量和可用性。

3.如何確定標籤規則?

根據生產方式的不同,標籤可以分爲事實標籤、規則標籤、模型標籤等類型。

事實標籤的規則定義比較簡單,數據分析師在理解業務數據的前提下,從業務方的原始數據中提取即可。比如從用戶註冊信息中提取用戶來源渠道、性別或者年齡階段等標籤。

規則標籤擁有很強的業務屬性,需要業務人員和數據分析師一起去分析探索,基於原始數據進行標籤規則的創建和拼接。比如要創建一個“大學生”標籤,那就需要從各個維度對“大學生”進行特徵定義,比如年齡方面一般在18-25歲之間,線上應用偏好方面安裝了一些大學生課程管理類App等等。

個推每日治數平臺DIOS實現智能特徵洞察

結合自身標籤體系建設實踐以及服務行業客戶的經驗,個推發現,標籤規則定義是企業搭建標籤體系過程中所普遍面臨的痛點、難點。即使是專業的數據分析師團隊和業務專家也需要先花費大量的時間和精力去理解數據和用戶之間的關聯性,再從中提煉出標籤規則。

爲了提升企業客戶的標籤生產效率,個推打造的數據智能操作系統——每日治數平臺DIOS,實現了目標智能特徵洞察以及智能數據推薦,幫助客戶快速定位所需數據、自動提煉標籤規則,更加高效地進行標籤生產。

模型標籤往往是參考已有事實數據來預測羣體的偏好、特徵和分類,例如根據流失用戶羣的特徵來預測其他用戶羣的流失概率。一般在事實標籤和規則標籤的覆蓋量級、飽和度、準確度等不足的情況下,我們就需要創建模型標籤,來滿足相關業務需求。

個推每日治數平臺DIOS實現零代碼搭建機器學習模型

傳統的模型標籤創建流程還是比較複雜的,涉及到算法開發、模型搭建、模型調優等複雜的工作。個推每日治數平臺DIOS將自身建模方法論“五步法”產品化,實現了零代碼建模能力,沒有編程經驗的業務人員也能在DIOS的可視化界面上拖拖拽拽,快速完成機器學習模型的搭建。

三、標籤開發

完成了整體的標籤體系設計,接下來就進入到標籤開發環節。一般而言,標籤開發的過程可以拆解爲工程開發、工程測試、工程上線等三個階段。在工程開發階段,研發工程師根據標籤規則以及數據源情況進行工程的開發;然後由測試工程師結合業務訴求及工程結果對標籤質量進行測試驗收,確保標籤準確性後最終上線。

這其中涉及到一個非常重要的問題,即如何對新構建的標籤進行準確性校驗。

常見的校驗方式有三種:

①通過TGI進行邏輯自洽性校驗。比如新構建了一個男性標籤,通過TGI發現被打上男性標籤的人羣中有很大一部分也被打上了女性的標籤,顯然這是一種很不合理的現象。(說明:“TGI”指的是洞察人羣某特徵佔比與對照組人羣該特徵佔比的比值,用於比較人羣間的特徵差異。)

②使用第三方平臺校驗。比如通過廣點通,使用第三方數據來進行準確性的校驗。

③進行廣告投放。圈選不同標籤下的目標羣體,進行A/B測試,根據投放結果校驗標籤的準確性。

完成了工程測試和標籤準確性校驗,就可以正式上線運行標籤體系。我們建議,企業可以先在實際業務場景中進行小範圍的多次檢驗,再大規模進行標籤體系的上線,避免後期出現大範圍的調整和改動。

四、標籤全生命週期管理
作爲一種重要的數據資產,企業還需要在標籤體系上線以後,對標籤資產進行全生命週期的精細化管理。

此外,我們還建議企業建立標籤質量保障體系,設立責任人制度,確保標籤第一負責人能夠及時響應相關事項;梳理標籤開發、上線的流程和經驗,實現後續標籤的開發、測試、上線等流程規範化和標準化;更加體系化地進行標籤質量監控,比如通過定時工程監控標籤計算工程、量級、飽和度等信息。

五、應用與反饋
企業建立標籤體系的最終目的是服務業務。常見的標籤業務應用場景有幾種:

①開發數據類產品。比如智能推薦系統正是基於標籤大數據和算法實現。

②用於目標羣體的特徵洞察和圈選。比如個推基於自身數千種標籤和億級別的特徵數據,幫助品牌主、APP對細分人羣進行畫像分析,並使用不同的標籤組合,智能圈選出符合目標特徵的人羣,爲客戶做廣告投放、用戶觸達提供支撐。

③精細化運營。完成對目標羣體的畫像洞察後,就可以進行更加精細化的運營。比如品牌主可以針對不同興趣偏好的消費者羣體制定差異化的廣告素材、選擇不同的媒體平臺,提升廣告投放效果。

針對在不同場景下的標籤應用結果,企業還需要做好後效的分析,科學評估標籤的質量、覆蓋度等,並把新產生的下游數據進行入庫處理,使整個標籤體系的全生命週期得到體系化的管控,真正實現數據資產的持續增值。

以上是對個推TechDay“治數訓練營”第四期直播內容的回顧,大家可以觀看直播回顧視頻進一步瞭解標籤體系建設的相關要點。

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章