數據產品經理的硬核能力：用戶畫像帶動用戶增長

如何通過數據清晰現有用戶的畫像，找到各個行業用戶的核心關注點，來進行精細化的運營以提升用戶的復購？如何將數據清晰梳理，整理出可以實際指導業務的指標呢？

如何通過數據知道用戶體驗產品的核心路徑？如何設計產品的新手引導來提升用戶的體驗？引導更多用戶體驗到產品核心，成爲“高轉化可能”的用戶？

用戶運營時候，如何通過數據清晰現有用戶的畫像，找到各個行業用戶的核心關注點，來進行精細化的運營以提升用戶的復購？

這些可能是很多運營在面對海量數據的時候都想知道的。我們都知道數據有強大的能力，清洗後的數據更加能夠指出一條清晰的前進道路。俗話說，一個不會看數據的運營不是一個好產品經理，作爲一個主要通過看數據和用戶訪談定性定量分析，然後產出相應策略指導增長的用戶增長產品運營，今天要講幾個硬核的能力，幫助通過數據提升運營能力，制定運營策略。

運營在數據分析的路上，有幾道關：埋點，拿數據，分析，產出可行運營策略，每一關都困難重重。

以下可能是運營去提取數據的真實場景：

運營：“我想看一下最近新上的功能用戶使用的如何，能不能給撈一下數據？”
開發：“看什麼數據？”
運營：“就想看一下都有誰看了功能，又有誰買了，買的用戶有什麼特徵，還有哪些使我們的目標用戶可以再去推廣一波”
開發：“到底需要什麼字段？”
運營：“啥字段啊？能不能把這個客戶使用過什麼功能，使用的情況怎麼樣，屬於深度用戶還是流失用戶，什麼行業都導出來？”
開發：“使用了什麼功能沒問題，使用情況給出定義，是使用次數還是使用賺到的錢？還是使用時長？”
運營：“都可以啊”
開發：“你能不能想清楚，你到底要用來幹嘛？什麼叫都可以，我是運營你是運營”

這是很普遍的情況，也是可以理解的情況，因爲運營的角度，是業務的角度，但開發的角度，是數據的角度，這個字段裏沒有你說的是不是活躍用戶。這時候肯定就會想，好像要一套數據，能夠清晰告訴我，這個用戶是什麼行業，使用了什麼功能，是什麼商業模式，處在什麼狀態啊！！

這就引出了一個問題，如何將數據清晰梳理，整理出這些可以實際指導業務的指標呢？

如何通過數據定義用戶畫像？

PART/01

1. 清晰定義想要的指標類型

例如是用戶生命週期指標，產品使用行爲指標，用戶購買行爲指標，用戶能力行爲指標，用戶自然人屬性指標……

2. 和數據儘可能清晰的溝通，拿到儘可能詳細的數據

注意，這裏的數據最好在提取數據的時候就不要多維數據！不要多維數據！

3. 處理數據並儘可能不要忽略可能對關鍵行爲產生影響的指標

通過模型或者excel等其他高級（假裝）的手段，通過宏觀數據（整個行業用戶數據或地區用戶數據）和圍觀數據（詳細到每個用戶一條記錄的數據）進行分析。

4. 根據分析結果，得出一套可以套用的指標體系，將指標自動打在各個用戶身上

5. 用戶畫像初步完成，之後可以再優化

場景指標定義明確需要提取的指標

PART/02

在和數據或者開發溝通提取數據之前，首先需要思考希望得出一個什麼樣的畫像結果，這裏可以大膽使用假設，例如：

“我希望看到用戶A，是一個來自百度搜索的北京K12機構用戶，他已經聯繫3年續費我們的產品了，但他們運營能力比較弱，使用的功能一直都是那麼幾個，沒有用到我們推出的新功能，主要使用的就是直播功能和考試功能。他們機構的用戶一直穩定在10萬左右，其中還有3個運營在維護，在學生放假和考試時間使用尤其頻繁。”

這樣就很明確，一般我會分出兩類型數據，然後再根據兩個類型數據細化相關指標。

這裏每一類數據都可以再細分出細化的數據指標，比如說用戶基礎數據可以如此細化，其他指標類型也可以如此，根據產品屬性和需要了解的內容選取指標。

數據提取——多維數據的降維處理

PART/03

清晰了指標定義，會發現有一些指標可能會涉及多維，沒有辦法進行比較和分析。

例如，用戶使用成功創建了某種類型的商品，每個商品的售賣量和銷量都不相同，在考慮該商品功能的使用時候如何進行綜合處理？這裏需要降維處理一下數據，可以加權平均，或者取衆數，中位數進行代表，從而降低對比評價出現多維對比的情況。

用數據分析發現“最重要的指標”

PART/04

一條用戶記錄，關聯的數據字段是非常多的，一個用戶，付費和不付費的核心差別點是什麼？到底什麼是讓用戶付費的關鍵？用戶到底關注什麼？

這可能需要藉助分析來看清楚，這裏的因變量（用戶的付費）和哪些自變量是相關聯的。在這裏推薦一個算法：CHAID決策樹，這類決策樹專門用來找出這裏面核心影響最終結果的變量是什麼，也就是說，這麼多功能，用戶這麼多行爲，這麼多屬性，到底哪種屬性類型的用戶，哪種行爲類型的用戶，更容易轉化！

決策樹算法是如何計算的？

PART/05

假定我們需要了解的是用戶如何能夠付費，那付費與否就是要考察的因變量，也是需要決策樹根據變量情況預測的值。

我們把整個數據集按照20%，80%分成訓練集和驗證集，即爲一部分拿來訓練模型，讓模型從數據裏找出特徵因素，一部分用來印證和預測，判斷模型和挑選的特徵變量是不是有效的，擬合度如何。

從自變量裏抽取2個既定值，與因變量進行卡方檢驗；如卡方檢驗顯示2者關係不顯著，正面2個既定值可以合併。不斷減少自變量的取值數量，直到該自變量所有取值均呈現顯著性。

例如，我們的數據裏有130個自變量，其中很多我們都不知道是否和用戶是否付費相關，不知道用戶每週活躍次數和用戶付費是否相關，不知道用戶嘗試了某個功能是否和用戶付費相關，這時就通過決策樹的卡方檢驗通過距離來判斷自變量和因變量之間是否相關。

通過比較找出最顯著的自變量，並按照自變量的最終取值對樣本進行分割，也就是形成多個不同的樹（一般CHAID生成兩個樹節點）。

最終展示出所有和用戶付費與否相關的決策點，其中可能是，直播功能創建超過3個，付費的概率高達80%，決策樹就幫助我們剔除了不相關或關聯性不顯著的自變量，告訴了我們，到底什麼纔會導致用戶的轉化付費。

End.
來源：LunaDeng

數據產品經理的硬核能力：用戶畫像帶動用戶增長

Python實現大麥網搶票的四大關鍵技術點解析

salesforce零基礎學習（一百三十八）零碎知識點小總結（十）

你覺得Python慢，那爲啥還有大公司一直在用呢？

整理一份可以讓 Python 變得更快的工具清單

我用pandas製作股票數據分析工具！!

數據分析的層次級別，看看你屬於哪一檔？

數據人必看！微信又添新功能！這個微信羣可以學英語，而且全程免費

https://yachay.unat.edu.pe/blog/index.php?comment_area=format_blog&comment_component=blog&comment_co

linux以太網驅動總結