原创 推薦系統7:推薦算法實戰:mahout推薦算法框架

1.Mahout介紹 1.1概述 根據百度的解說,Mahout 是 Apache Software Foundation(ASF) 旗下的一個開源項目,提供一些可擴展的機器學習領域經典算法的實現,旨在幫助開發人員更加方便快捷地創建

原创 推薦系統3:協同過濾推薦算法

1.思想簡介: 協同過濾,從字面上理解,包括協同和過濾兩個操作。所謂協同就是利用羣體的行爲來做決策(推薦)。對於推薦系統來說,通過用戶的持續協同作用,最終給用戶的推薦會越來越準。而過濾,就是從可行的決策(推薦)方案(標的物)中將用

原创 推薦系統6:SparkML預測模型構建

1.Spark ML重要概念 1.Spark ML基於什麼來處理的? Spark-Core的核心開發是基於RDD,但是RDD並不是非常的靈活,如果做一個結構化數據處理,還需要轉換成DataFrame(在Python當中引出的概念)

原创 推薦系統2:大數據應用

1.大數據應用案例 首先普及一下數據量單位,然後再來看BAT大數據應用 字節 byte:8個二進制位爲一個字節(B),最常用的單位. 1KB (Kilobyte 千字節)=1024B, 1MB (Megabyte 兆字節 簡稱“兆

原创 推薦系統5:用戶畫像

1.用戶畫像概述 1.1什麼是用戶畫像 用戶畫像是對現實世界中用戶的數學建模 1.2用戶畫像特點 1.源於現實,高於現實 用戶畫像是描述用戶的數據,是符合特定業務需求的對用戶的形式化描述 2.源於數據,高於數據 用戶畫像是通過分析

原创 推薦系統1:推薦系統概述

1.什麼是推薦系統 1.推薦系統的背景 (1)隨着信息技術和互聯網的發展,人們逐漸從信息匱乏的時代走入了信息過載的時代。在這個時代,無論是信息消費者還是生產者都遇到了很大的挑戰 (2)無明確需求 (3)信息過載 由此引出推薦系統

原创 推薦系統之概述

1.什麼是推薦系統 1.推薦系統的背景 (1)隨着信息技術和互聯網的發展,人們逐漸從信息匱乏的時代走入了信息過載的時代。在這個時代,無論是信息消費者還是生產者都遇到了很大的挑戰 (2)無明確需求 (3)信息過載 由此引出推薦系統

原创 Hadoop生態架構之Spark Streaming

1、Streaming定位 是Spark體系內的流式處理框架(和Storm對比) 2、和Storm對比 Storm:數據像水流一樣,最基本的單位是tuple——毫秒級 Streaming:把水狀的數據,按照時間進行離散化處理——秒

原创 Hadoop生態架構之zookeeper

# 1.zookeeper選舉機制 Zookeeper雖然在配置文件中並沒有指定master和slave,但是,zookeeper工作時,是有一個節點爲leader,其他則爲follower,Leader是通過內部的選舉機制臨時產生的 #

原创 推薦系統之協同過濾推薦算法

1.思想簡介: 協同過濾,從字面上理解,包括協同和過濾兩個操作。所謂協同就是利用羣體的行爲來做決策(推薦)。對於推薦系統來說,通過用戶的持續協同作用,最終給用戶的推薦會越來越準。而過濾,就是從可行的決策(推薦)方案(標的物)中將用

原创 Hadoop生態架構之LogServer實現

分佈式日誌數據採集 1.NGINX配置: slave2作爲分發節點,master和slave1作爲日誌採集節點 slave2的NGINX配置如下圖: slave1和master的NGINX配置如下圖: 2.slave1和mas

原创 Hadoop生態架構之kafka基本操作以及集成flume

1.kafka基本理論知識 1、定位:分佈式的消息隊列系統,同時提供數據分佈式緩存功能(默認7天) 2、消息持久化到磁盤,達到O(1)訪問速度,預讀和後寫,對磁盤的順序訪問(比內存訪問還要快) 3、Storm(分佈式的實時計算框架

原创 線性代數第一章行列式

本章主要介紹n階行列式的定義、性質及其計算方法。此外還要介紹用n階行列式求解n元線性方程組的克拉默(Cramer)法則。 $1.二階與三階行列式 一、二元線性方程組與二階行列式 用消元法解二元線性方程組: 爲消去未知數x2,

原创 這樣思考,你也可以變成有條理,有邏輯的人!

01邏輯能力是天生的? 邏輯能力強是不是天生的?女生是不是缺乏條理?這樣的問題,我從初中的時候就開始思考。 讀初中的時候,我的數學很差,看到幾何體,應用題,腦袋疼,求解證明題的時候,完全搞不懂怎麼推到出來的。那個時候,大家都會說:

原创 協同過濾推薦算法

1.思想簡介: 協同過濾,從字面上理解,包括協同和過濾兩個操作。所謂協同就是利用羣體的行爲來做決策(推薦)。對於推薦系統來說,通過用戶的持續協同作用,最終給用戶的推薦會越來越準。而過濾,就是從可行的決策(推薦)方案(標的物)中將用