電影推薦系統

目錄:

  1. 項目時間:2016-09 - 2017-09
  2. 技術架構:Hadoop+Flume+Kafka+Sqoop+Spark+Zookeeper+JDBC+Hive+Mysql+Highcharts+FreeMarker
  3. 項目描述:
    1. 新區註冊人數和時段的關係
    2. 區組金錢充值和合區的分析
    3. 遊戲的日誌產生消息。
    4. 該系統是一個交互式用戶行爲分析系統。系統的主要用戶爲公司內部的PM和運營人員,用戶根據自己的需求去
      分析某一 類客戶的流量數據。根據分析結果,PM可以優化產品設計,運營人員可以爲自己的運營工作提供數據
      支持。用戶在系統界面中選擇某個分析功能對應的菜單,並進入對應的任務創建界面,然後選擇篩選條件和任務
      參數,並提交任務。在接收到用戶提交的任務之後,根據任務類型選擇其對應的Spark作業,啓動一條子線
      程來執行Spark-submit命令以提交Spark作業。Spark作業運行在Yarn集羣上,並針對Hdfs中的海量
      數據使用SparkSQL進行計算,最終將計算結果寫入Hdfs中。另外還集成Flume,Kafka和Spark,
      利用SparkStreaming,進行實時分析。用戶通過系統界面查看任務分析結果,將結果返回給界面進行展現。
    5. 伊的家,這是一個基於hadoop生態圈的離線數據分析平臺,使用CM搭建並部署了Hadoop HA高可用集羣,通過Ngnix服務器生成用戶行爲日誌,使用Flume週期性收集日誌數據並上傳至HDFS文件系統,使用MapReduce進行數據清洗,通過Hive從時間、地域、瀏覽器等多個維度對活躍用戶數、新註冊用戶數、二跳率進行多維度分析統計;並將這些指標使用Hcharts表進行圖表化展示給產品經理和甲方決策者看,藉此指標分析進行女性商品精準營銷與推薦;
  4. 責任描述:
    1. 審覈數據平臺項目總體技術方案,對各項目進行質量評估;參與應用分析系統的系統分析、設計以及實施工作負責分析數據採集需求,全局設計數據處理的技術流程和規範;負責設計改良數據質量根據實際情況解決核心數據質量問題;研究與跟蹤大數據新技術發展方向,主持制定大數據平臺技術發展戰略規劃;負責大數據部門的技術研究、技術知識培訓要求擁有5年以上Hadoop開發設計和實施經驗,有分佈式系統架構設計的經驗,有Hadoop系統架構設計經驗,至少1個以上大型成熟項目的經驗;2對Hadoop相關的技術和組件HDFS,MR,Hase,Hive,Spark,Storm等有全面深入瞭解,能夠熟練安裝、配置、部署和優化大型Hadoop的。
    2. 1、參與產品需求分析,技術方案選型,hadoop等開發環境的搭建;
      2、編寫、測試、優化MR程序對Flume收集上傳到HDFS的數據進行清洗與過濾;
      3、通過編寫Hive HQL程序從時間、地域、瀏覽器等多個維度對pv,uv,活躍用戶數、新註冊用戶數、二跳率等指標進行多維度分析統計;
      4、編寫Sqoop命令週期性或採用增量方式將處理好的結果表數據導入到MySQL中。
    3. 負責從Kafka導入數據分析各個時段的各個站點的客流量,
      運用spark-streaming計算,並輸出到數據庫。
發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章