原创 185 RDD API - Action

動作 含義 reduce(func) 通過func函數聚集RDD中的所有元素,這個功能必須是課交換且可並聯的 collect() 在驅動程序中,以數組的形式返回數據集的所有元素 count() 返回RDD的元

原创 195 Spark Streaming整合Kafka完成網站點擊流實時統計

1.安裝並配置zk 2.安裝並配置Kafka 3.啓動zk 4.啓動Kafka 5.創建topic bin/kafka-topics.sh --create --zookeeper node1.itcast.cn:2181,no

原创 191 DStream概述

Discretized Stream是Spark Streaming的基礎抽象,代表持續性的數據流和經過各種Spark原語操作後的結果數據流。在內部實現上,DStream是一系列連續的RDD來表示。每個RDD含有一段時間間隔內的數

原创 197 Spark DataFrames概述

與RDD類似,DataFrame也是一個分佈式數據容器。然而DataFrame更像傳統數據庫的二維表格,除了數據以外,還記錄數據的結構信息,即schema。 同時,與Hive類似,DataFrame也支持嵌套數據類型(struct

原创 144 Mahout介紹

Mahout是什麼? Mahout是一個算法庫,集成了很多算法。 Apache Mahout 是 Apache Software Foundation(ASF)旗下的一個開源項目,提供一些可擴展的機器學習領域經典算法的實現,旨在幫

原创 143 協同過濾的實現

1.收集用戶偏好及標準化處理 要從用戶的行爲和偏好中發現規律,並基於此給予推薦,如何收集用戶的偏好信息成爲系統推薦效果最基礎的決定因素。用戶有很多方式向系統提供自己的偏好信息,而且不同的應用也可能大不相同,下面舉例進行介紹: A

原创 150 混合推薦系統案例(項目開發)

整體架構 1)數據平臺: 在數據平臺上,針對每個用戶計算好三個推薦結果,基於用戶的推薦結果、基於物品的推薦結果、基於內容的推薦結果。基於物品的相似度、基於內容的相似度。 2)Redis數據緩存: 通過獨立的Java應用將每個用戶

原创 138 推薦引擎的分類

推薦引擎的分類可以根據很多指標進行區分: 根據目標用戶進行區分:根據這個指標可以分爲基於大衆行爲的推薦引擎和個性化推薦引擎。 根據大衆行爲的推薦引擎,對每個用戶都給出同樣的推薦,這些推薦可以是靜態的由系統管理員人工設定的,

原创 140 混合的推薦機制

在現行的 Web 站點上的推薦往往都不是單純只採用了某一種推薦的機制和策略,他們往往是將多個方法混合在一起,從而達到更好的推薦效果。關於如何組合各個推薦機制,這裏講幾種比較流行的組合方法。 加權的混合(Weighted Hybr

原创 145 Mahout協同過濾算法

Mahout使用了Taste來提高協同過濾算法的實現,它是一個基於Java實現的可擴展的,高效的推薦引擎。Taste既實現了最基本的基於用戶的和基於內容的推薦算法,同時也提供了擴展接口,使用戶可以方便的定義和實現自己的推薦算法。同

原创 149 混合推薦系統案例(功能分析)

數據準備 爲用戶guyong準備基於用戶的推薦結果 爲用戶guyong準備基於物品的推薦結果,該結果基於用戶上一次的瀏覽記錄生成 準備物品與物品的相似度數據–基於物品的相似度推薦 準備物品與物品的相似度數據----基於內容的

原创 141 推薦系統的應用場景

Amazon 利用可以記錄的所有用戶在站點上的行爲,根據不同數據的特點對它們進行處理,並分成不同區爲用戶推送推薦: 今日推薦 (Today’s Recommendation For You): 通常是根據用戶的近期的歷史購買或者

原创 153 Scala編譯器安裝(Windows)

注意:因爲Scala是運行在JVM平臺上的,所以安裝Scala之前要安裝JDK! 訪問Scala官網http://www.scala-lang.org/下載Scala編譯器安裝包,目前最新版本是2.13.x,但是目前大多數的框架都

原创 147 Mahout運行在Hadoop集羣

Hadoop 執行腳本 hadoop jar mahout-examples-0.9-job.jar org.apache.mahout.cf.taste.hadoop.item.RecommenderJob --input /s

原创 157 SBT安裝與使用

參考:https://blog.csdn.net/qq_21383435/article/details/79970850