原创 2.項目需求解析

前言 本篇文章講解的是電商分析平臺中的各個模塊需求,後續的文章還在慢慢更新中,我會把所有的需求都寫完之後,把文章統一開放,敬請等待 需求總體概述 一 離線數據分析 動作表解析: 通過埋點採集到的用戶行爲數據被存儲在了動作表裏

原创 spark(二)--spark-core---RDD進階知識(圖文詳解,基於IDEA開發)

前言 spark系列教程 spark-core–RDD入門實戰(詳解各大api,基於IDEA開發) 目錄: RDD函數傳值 RDD依賴關係 RDD緩存 鍵值對RDD分區器 數據的讀取與保存 連接mysql數據庫 RDD累加器

原创 電商平臺分析平臺----需求六:實時統計之黑名單機制

做什麼? 從Kafka獲取實時數據,對每個用戶的點擊次數進行累加並寫入MySQL,當一天之內一個用戶對一個廣告的點擊次數超過100次時,將用戶加入黑名單中。 需求解析 1.先從kafka得到數據,數據格式是:(timestamp

原创 電商平臺分析平臺----需求七,九前置知識

Window Operations 先來看看什麼叫窗口滑動 def main(args: Array[String]): Unit = { val list=Array(1,2,3,4,5,6); val win

原创 需求一:各個範圍Session步長、訪問時長佔比統計

做什麼? 統計各個範圍Session步長、訪問時長佔比統計 訪問時長:session的最早時間與最晚時間之差。 訪問步長:session中的action操作個數。 即:統計出符合篩選條件的session中,訪問時長

原创 電商平臺分析平臺----需求七:實時統計之各省各城市廣告點擊量實時統計

做什麼? 收到kafka的數據,實時統計各省各城市各廣告的廣告點擊量 需求分析 kafka收到的數據仍然是需求六中的數據,思路也是相同的,即將數據變成(key,1L),再去改變總的數量 不同的地方是: key現在變爲 (dat

原创 電商平臺分析平臺----需求五:計算給定的頁面訪問流的頁面單跳轉化率

做什麼? 我們需要去分析每一次的頁面訪問流程,也就是用戶從進入網站到離開網站這個流程中所訪問的頁面順序,也就是一個session中的頁面訪問順序。 假如一個session的頁面訪問順序爲1,2,3,4,5,那麼他訪問的頁面切片就

原创 1.項目搭建及,commons模塊解析,離線實時數據準備

項目搭建 github下載源碼 使用idea創建maven項目,並創建如下四個模塊 複製源碼中的pom.xml,修改你的環境版本號 複製mock,commons模塊到你的項目中 common模塊解析 conf 基於文

原创 電商平臺分析平臺----需求二:按照比列隨機抽取session

做什麼? 在符合過濾條件的session中,按照時間比例隨機抽取100個session。當存在若干天的數據時,100個session抽取指標在天之間平均分配,在一天之中,根據某個小時的session數量在一天中總session數量

原创 電商平臺分析平臺----需求八:實時統計之各省份廣告top3排名

做什麼? 根據需求七中統計的各省各城市累計廣告點擊量,創建SparkSQL臨時表,通過SQL查詢的形式獲取各省的Top3熱門廣告。 需求分析 在需求七中,我們已經實時統計了各省各城市廣告的點擊量,並且key的格式是(date_p

原创 樹--(第1天)

兩數之和 IV - 輸入 BST 給定一個二叉搜索樹和一個目標結果,如果 BST 中存在兩個元素且它們的和等於給定的目標結果,則返回 true。 分析: 利用bst的特性,將樹轉化爲排序數組,再用二分查找法即可 class S

原创 電商平臺分析平臺----需求三:熱門top10商品

做什麼? 在符合條件的用戶行爲數據中,獲取點擊、下單和支付數量排名前10的品類。在Top10的排序中,按照點擊數量、下單數量、支付數量的次序進行排序,即優先考慮點擊數量。 需求分析 首先我們想要得到的是在符合條件的action中

原创 電商平臺分析平臺----需求四:Top10熱門品類的Top10活躍Session統計

做什麼? 統計需求三中得到的Top10熱門品類中的Top10活躍Session,對Top10熱門品類中的每個品類都取Top10活躍Session,評判活躍Session的指標是一個Session對一個品類的點擊次數。 需求解析

原创 大數據之spark大型電商平臺分析平臺(一)--項目前言

電商分析平臺 該項目是我根據尚硅谷大數據電商分析平臺視頻做的筆記,總共分成了大概十個需求,每個需求我都用一篇文章來解析 項目文章目錄: 項目搭建及,commons模塊解析,離線實時數據準備 項目需求解析 需求一:各個範圍Ses

原创 6.Flume 企業開發案例與架構設計

案列一:多路複用 1)案例需求 使用 Flume-1 監控文件變動,Flume-1 將變動內容傳遞給 Flume-2,Flume-2 負責存儲 到 HDFS。同時 Flume-1 將變動內容傳遞給Flume-3,Flume-3 負