前言
如果你從本文中學習到絲毫知識,那麼請您點點關注、點贊、評論和收藏
大家好,我是愛做夢的魚,我是東北大學大數據實驗班大三的小菜雞,非常渴望優秀,羨慕優秀的人。從5月25號我們開始了爲期兩個月的實習,我們需要做一個大型大數據項目,一個項目由三個學生+一個企業的項目經理完成。請大家持續關注我的專欄,我會每天更新。
專欄:大數據案例實戰——大三春招大數據開發
專欄:Spark官方文檔解讀【Spark2.4.5中英雙語】
博客地址:子浩的博客https://blog.csdn.net/weixin_43124279
歡迎大家關注微信公衆號【程序猿乾貨鋪】
一羣熱愛技術並且嚮往優秀的程序猿同學,不喜歡水文,不喜歡販賣焦慮,只喜歡談技術,分享的都是技術乾貨。Talk is cheap. Show me the code
1、引言
1.1目的
該文檔是關於數據運營系統的功能和性能的描述,重點描述了系統的功能需求,並作爲系統設計階段的主要輸入。
本文檔的預期讀者是:需求分析人員;設計人員;開發人員;測試人員;
1.2項目背景
項目的名稱:數據分析運營系統
項目的提出者:小組成員
開發者:東北大學大數據實驗班TOP1小組(王闊、趙磊、張志浩)
用戶:產品運營專員
1.3縮寫說明
縮寫 | 全稱 |
---|---|
ODS | 操作數據存儲(Operational data storage) |
DWD | 細節數據層(data warehouse detail ) |
DWS | 服務數據層(data warehouse service) |
ADS | 應用程序數據存儲(Application Data Store) |
OLAP | 聯機分析處理(Online Analytical Processing) |
1.4術語定義
術語 | 解釋 |
---|---|
新增用戶(7日平均) | 最近7日(不含今日)每日新增用戶的平均值 |
新用戶次日留存率(7日平均) | 最近7日(不含今日/昨日)新增用戶次日留存率的平均值 |
使用時長(7日平均) | 最近7日(不含今日)用戶每日使用時長的平均值 |
活躍用戶(7日平均) | 最近7日(不含今日)每日活躍用戶的平均值 |
7日總活躍用戶數(去重) | 最近7日(不含今日)活躍用戶的總數(去重) |
30日總活躍用戶數(去重) | 最近30日(不含今日)活躍用戶的總數(去重) |
累計用戶數 | 截止到當前時間,啓動過應用的所有獨立用戶(去重,以設備爲判斷標準) |
總錯誤率 | 每日錯誤數/啓動次數 |
新增用戶 | 第一次啓動應用的用戶(以設備爲判斷標準) |
新增賬號 | 第一次啓動應用的賬號 |
活躍用戶 | 啓動過應用的用戶(去重),啓動過一次的用戶即視爲活躍用戶,包括新用戶與老用戶 |
活躍構成 | 活躍用戶中新增用戶的佔比比例 |
活躍粘度 | DAU/過去7日活躍用戶,DAU/過去30日活躍用戶 |
啓動次數 | 打開應用視爲啓動,完全退出或退至後臺即視爲啓動結束 |
留存用戶和留存用戶率 | 某段時間內的新增用戶(活躍用戶),經過一段時間後,又繼續使用應用的被認作是留存用戶;這部分用戶佔當時新增用戶(活躍用戶)的比例即是留存率。 |
1.5參考資料
選用的模板:百度文庫《需求規格說明文檔》
1.6版本信息
修改編號 | 修改日期 | 修改人員 | 修改後的版本 | 修改位置 | 修改內容概述 |
---|---|---|---|---|---|
0 | 2020/06/02 | 張志浩 | v1 |
2、任務概述
2.1系統定義
2.1.1項目背景
現在隨着互聯網的發展,好多公司的主營業務在線上(app/網站)(外賣公司、各類 app,比如:下廚房;頭條;安居客;內涵段子;鬥魚;每日優鮮>、頁遊、唯品會、拼多多、噹噹、蘇寧 易購、國美在線、網易嚴選、攜程、中華會計網校、多易教育、小象學院、慕課網、尚德教育、有錢花、上哪借 ……)
這類公司,都需要針對用戶的線上訪問行爲、消費行爲、業務操作行爲進行統計分析,數據挖掘!以支撐公司的業務運營、精準畫像營銷、個性化推薦等,來提高業務轉化率,改善公司運營效果! 這些需求,都需要通過構建一個綜合數據處理系統來支撐!
2.1.2項目要達到的目標
這一版本我們主要針對用戶的線上訪問行爲、業務操作行爲進行統計分析,建立起從數據採集到結果展示的完整系統,以支撐公司的業務運營來提高業務轉化率,改善公司運營效果。在以後的版本中可能會建立用戶畫像系統來支持精準畫像營銷和個性推薦。
2.1.3系統整體結構
圖2.1.3-1系統功能結構圖
2.1.4系統各部分組成,與其他部分的關係,各部分的接口等
2.2運行環境
2.2.1設備環境
普通PC機:處理器P4以上,內存1GB以上,支持鼠標鍵盤工作。
2.2.2硬件環境
普通PC即可。
2.2.3軟件環境
無。
2.2.4網絡環境
正常的網絡連接。
2.2.5操作環境
普通PC瀏覽器打開本站登錄即可。
2.2.6應用環境
2.3條件限制
2.3.1軟件開發工作的假定和約束
例如經費限制、開發期限等。
2.3.2軟件的最終用戶、用戶的教育水平和技術專長
用戶公司的管理人員針對本軟件提供的用戶線上訪問行爲、消費行爲、業務操作行爲的各種報表進行統計分析以提高業務轉化率,改善公司運營效果,要求會看圖表,會操作計算機。
2.3.3軟件的預期使用頻度
因爲本軟件是分析用戶的線上行爲來提高公司的運營效果,所以公司的管理人員每日都會關心昨天的用戶線上行爲,每日都會被使用本軟件,但是每日中的使用頻次無法估計。
3、數據描述
3.1靜態數據
商品信息,訂單信息等存儲在業務系統數據庫
3.2動態數據
App/Web/微信小程序端埋點返回的日誌:返回的日誌類似於JSON格式文件的結構,其中對象由花括號括起來的逗號分割的成員構成,成員是鍵值對,如:
{“name”: “John Doe”, “age”: 18, “address”: {“country” : “china”, “zip-code”: “10000”}}
我們接下來以app端日誌的某一行來解釋數據
{
“eventid”:“addShowEvent”,
“event”:{“adId”:“8”,“pgId”:“599”,“adPosition”:"",“adType”:"",“adTitle”:"",“adSource”:"",“adResourceID”:""},
“user”:{“uid”:“508288”,“account”:"",“email”:"",“phoneNbr”:“18771250825”,“birthday”:"",“isRegistered”:"",“isLogin”:"",“addr”:"",“gender”:"",
“phone”:{“imei”:“9065623596907112”,“mac”:“d1-b8-a5-cb-49-23-68”,“imsi”:“5701516260659471”,“osName”:“windows”,“osVer”:“10.0”,“androidId”:"",“resolution”:“800*600”,“deviceType”:“HUAWEI_RY6”,“deviceId”:“u5L6ES”,“uuid”:“aXhLQEbks0RGc4nS”},
“app”:{“appid”:“com.51doit.mall”,“appVer”:“2.2.8”,“release_ch”:“應用超市”,“promotion_ch”:“10”},
“loc”:{“areacode”:620702400,“longtitude”:100.67998669005996,“latitude”:38.924405643707416,“carrier”:“ISP03”,“netType”:“WIFI”,“cid_sn”:“439981747513”,“ip”:“104.86.115.114”},
“sessionId”:“sid-6b37a9bd-1072-4ee9-a092-eb3ccab3c828”},
“timestamp”:“1575533430000”
}
Key | 解釋 |
---|---|
Eventid | 事件id |
Event | 事件 |
Pgid | 頁面id |
adPosition | 廣告位置 |
adType | 廣告類型 |
adTitle | 廣告標題 |
adSource | 廣告源 |
adResourceID | 廣告源id |
User | 用戶 |
uid | 用戶id |
Account | 賬戶 |
郵箱 | |
phoneNbr | 電話號碼 |
birthday | 出生日期 |
isRegistered | 是否註冊 |
isLogin | 是否登陸 |
addr | 地址 |
gender | 性別 |
phone | 電話 |
imei | 國際移動設備識別碼 |
mac | MAC地址 |
imsi | 國際移動用戶識別碼 |
osName | 操作系統名字 |
osVer | 操作系統版本 |
androidId | Android設備唯一標識 |
resolution | 屏幕分辨率 |
deviceType | 設備類型 |
deviceId | 設備id |
uuid | 通用唯一識別碼(Universally Unique Identifier) |
app | 手機軟件 |
appid | 軟件id |
appVer | 軟件版本 |
release_ch | 發行渠道 |
promotion_ch | 升級渠道 |
loc | 位置 |
areacode | 地區代碼 |
longtitude | 經度 |
latitude | 緯度 |
carrier | 運營商 |
netType | 網絡類型 |
cid_sn | |
ip | 網際互連協議(Internet Protocol) |
sessionId | 會話id |
timestamp | 時間戳 |
3.3數據庫描述
MySQL :是一種開放源代碼的關係型數據庫管理系統(RDBMS)。
3.4數據字典
- 地理位置字典(spark 程序、高德地圖 api)、
- 頁面信息字典(爬蟲、NLP-自然語言處理技術-分詞-關鍵詞抽取算法 TF-IDF)、 頁面 id,url,標題,頻道/欄目/品類,關鍵詞
- GUID 字典(spark graphx)
3.5數據採集
系統運行時需要不斷對業務系統數據庫進行讀寫操作,並實時讀取埋點日誌服務器中的日誌。
4、功能需求
4.1功能劃分
4.1.1系統功能組成
主要功能模塊:
- 1)整體趨勢
- 2)用戶分析
- 3)存留分析
- 4)渠道分析
- 5)用戶參與度分析
- 6)終端屬性分析
4.1.2功能編號和優先級
編號 | 名稱 | 優先級 | 主要發起者 |
---|---|---|---|
0101 | 整體趨勢 | 重要 | 用戶 |
0201 | 新增用戶 | 重要 | 用戶 |
0202 | 活躍用戶 | 重要 | 用戶 |
0203 | 啓動次數 | 重要 | 用戶 |
0204 | 版本分佈 | 重要 | 用戶 |
0301 | 留存用戶 | 重要 | 用戶 |
0302 | 用戶新鮮度 | 重要 | 用戶 |
0303 | 用戶活躍度 | 重要 | 用戶 |
0401 | 渠道列表 | 重要 | 用戶 |
0501 | 使用時長 | 重要 | 用戶 |
0502 | 使用頻率 | 重要 | 用戶 |
0503 | 訪問頁面 | 重要 | 用戶 |
0504 | 使用間隔 | 重要 | 用戶 |
0601 | 設備終端 | 重要 | 用戶 |
0602 | 網絡及運營商 | 重要 | 用戶 |
0603 | 地域 | 重要 | 用戶 |
4.2功能描述
- 0101整體趨勢:
基礎統計數值:包括7日平均新增用戶、活躍用戶等,一週內、一個月內的統計量總數,總用戶數。
指定時間區間內(默認30天內每日):
新增用戶、活躍用戶、啓動次數、累計用戶
折線圖,明細數據列表
Top版本環形圖:新增用戶、活躍用戶、累計用戶每個版本佔比
Top渠道環形圖:新增用戶、活躍用戶、累計用戶每個渠道佔比 - 0201新增用戶
指定時間段、指定渠道和版本,每日新增用戶折線圖、明細數據表格
次日存留率折線圖、明細 - 0202活躍用戶:
指定時間段、指定渠道和版本下,
活躍趨勢、活躍構成、活躍粘度、分時活躍用戶、周,月活躍度 - 0203啓動次數:
指定時間段、指定渠道和版本下,每(小時、天、周、月)的啓動次數 - 0204版本分佈:
指定時間段、版本下, 每天新增用戶、活躍用戶、啓動次數折線圖
今日、昨日截至今日版本累計用戶(%),新增用戶,活躍用戶(%),啓動次數 - 0301留存用戶
指定時間段、指定渠道和版本下,每一個時間段(天、周、月)新用戶和活躍用戶數在接下來一段時間(天、周、月)的留存數/留存率,以表格形式和折線形式呈現。 - 0302用戶新鮮度:
報表展示每天活躍用戶的成分構成,並提供用戶成分分析控件做進一步的分析。某日的活躍用戶來源於當天新增用戶、1天前新增用戶…30天前新增用戶、30+天前新增用戶。 - 0303用戶活躍度:
報表展現每個天級時間點的當日活躍用戶的活躍程度。 - 0401渠道列表:
指定時間段、指定版本,各渠道新增用戶、活躍用戶、啓動次數 - 0501使用時長:
指定某一天、指定渠道和版本下,單次使用時長分佈柱形圖,明細表格。
該天每個活躍用戶使用時長分佈柱形圖、明細表格。 - 0502使用頻率:
指定日期,指定版本、渠道,當日、上週、上個月使用次數分佈柱形圖,明細表格。 - 0503訪問頁面:
指定時間段(一天、一週、一個月)、指定渠道和版本下,訪問頁面分佈柱形圖,明細表格。 - 0504使用間隔:
查看任意30天內用戶相鄰兩次啓動間隔的分佈情況,並可以進行版本、渠道及分羣的篩選。以柱形圖、明細表格形式展示。 - 0601設備終端:
指定時間段(一天、一週、一個月)、指定渠道和版本下 ,top10機型、分辨率、操作系統的新增用戶/啓動次數柱狀圖、明細表格。 - 0602網絡及運營商:
指定時間段(一天、一週、一個月)、指定渠道和版本下 ,各種聯網方式的新增用戶/啓動次數柱狀圖、明細表格。 - 0603地域:
指定時間段(一天、一週、一個月)、指定渠道和版本下 ,各省市的新增用戶/活躍用戶/啓動次數柱狀圖(top10省)、明細表格(省市)。
5、性能需求
5.1數據精確度
嚴格驗證每個數據的錄入保證數據錄入的無誤,顯示用戶數據要和原始數據一樣無差別。
5.2時間特性
在網絡通常的情況下用戶點擊網頁後5s內必須出結果
5.3適應性
網頁支持主流瀏覽器的正常加載顯示,控制可視化圖表和報表顯示正常。
6、運行需求
6.1用戶界面
6.1.1界面風格
6.1.2界面描述和樣式
6.2硬件接口
6.3軟件接口
6.4故障處理
列出可能的軟件、硬件故障以及對各項性能而言所產生的後果,對故障處理的要求。
7、其他要求
7.1檢測或驗收標準
列出故障率、出錯率等驗收標準。