原创 [矩陣分解]基於隱式反饋的矩陣分解ALS(spark實現)

目錄 一、ALS模型 1、模型定義 2、參數求解 3、推薦計算 二、pyspark實現ALS模型 三、矩陣分解模型與協同過濾模型比較   一、ALS模型 1、模型定義 用戶u對商品i的偏好:        其中,在隱式反饋中無法獲取用戶

原创 [spark性能調優]spark submit資源參數調優及amazon集羣示例

目錄 一、spark作業基本運行原理 二、資源參數調優 Spark內存管理: 三、amazon集羣資源參數示例   一、spark作業基本運行原理 資源申請與分配:        我們使用spark-submit提交一個spark作業後

原创 [近鄰推薦]基於鄰域的算法-協同過濾算法

目錄 1、相似度的度量 2、基於用戶的協同過濾算法 2.1 算法原理 2.2 用戶相似度計算的改進 2.3 使用的場景 3、基於物品的協同過濾算法 3.1 算法原理 3.2 物品相似度計算的改進 3.3 使用的場景 4、userCF和it

原创 [kaggle]Titanic生還概率預測,accuracy-0.79425

目錄 一、數據摸底 1.1 數據加載 1.2 數據統計描述和可視化 1、數據類型查看 2、特徵缺失值查看 3、變量統計描述 4、特徵變量與目標變量的相關性 二、數據預處理 2.1 名字字符串提取title 2.2 缺失值填充 2.3 類別

原创 [tensorflow]tf.data.Dataset數據輸入管道

目錄 一、tf.data簡介 二、讀取數據 1、從內存中讀取數據-numpy數組 2、從文件中讀取數據 三、變換Dataset中的元素 1、使用Dataset.map()預處理數據 2、使用Dataset.batch()批處理數據集元素

原创 排序算法總結及Python實現

目錄 一、冒泡排序、選擇排序和插入排序:O(n*n) 1、冒泡排序 2、選擇排序 3、插入排序 二、歸併排序和快速排序:O(nlogn) 1、歸併排序 2、快速排序 三、桶排序和基數排序:O(n) 1、桶排序 2、基數排序 一、冒泡排序、

原创 卷積神經網絡CNN參數優化

一、訓練神經網絡模型 1、神經網絡訓練流程 變量初始化:通過滿足正態分佈的隨機數來初始化神經網絡中的參數是一個常用的方法。 部分訓練數據:在每次迭代的開始,首先需要選取一小部分訓練數據,這一小部分數據叫做一個batch。這個batch的

原创 spark性能優化-數據傾斜

背景:        計算同一品類兩兩商品的相似度,已有的數據結構:[(cid,int); (pid,int); (features,vector)],商品數4W,商品對8W,用時8h。分析是由於數據傾斜導致,例如cid1有100個商品,

原创 [spark]總結spark ML機器學習庫(pyspark.ml)

目錄 一、pyspark.ml.feature特徵處理 二、pyspark.ml模型 三、pyspark.ml.tuning參數遍歷 一、pyspark.ml.feature特徵處理   方法 描述 功能 連續特徵離散化 Binarize

原创 京東基於商品圖片的個性化推薦:Telepath

目錄 一、推薦算法框架 二、京東Telepath模型 一、推薦算法框架 推薦系統框架如上圖所示,主要包含兩個重要模塊:檢索模塊(Retrieval)和排序模塊(Ranking)。檢索模塊獲取推薦結果候選集,排序模塊對待推薦的商品排序,最

原创 [tensorflow]tf.estimator.Estimator構建tensorflow模型

目錄 一、Estimator簡介 二、數據集 三、定義特徵列 四、estimator創建模型 五、模型訓練、評估和預測 六、模型保存和恢復 一、Estimator簡介 Estimator是TensorFlow對完整模型的高級表示。Tens

原创 [tensorflow]tf.data數據導入

目錄 一、tf.data簡介 二、讀取數據 1、從內存中讀取數據-numpy數組 2、從文件中讀取數據 三、變換Dataset中的元素 1、使用Dataset.map()預處理數據 2、使用Dataset.batch()批處理數據集元素

原创 卷積神經網絡CNN結構及TensorFlow實現

目錄 一、卷積神經網絡CNN的結構 1、卷積層CONV  2、池化層POOL 3、全連接層FC 二、使用tensorflow Estimator構建CNN MNIST分類器 1、CNN模型函數 2、訓練和評估CNN分類器 一、卷積神經網絡

原创 [tensorflow]圖片新類別再訓練-花分類-代碼整理

目錄 一、新類別模型的再訓練 1、圖片加載,並將數據集劃分爲訓練集、測試集、驗證集,比例分別爲80%,10%,10%(默認) 2、加載hub某個模型,拉取模型信息,創建圖 3、計算所有圖片的bottlenecks(特徵向量),並緩存 4、

原创 [kaggle]Titanic生還概率預測

目錄 一、數據摸底 1.1 數據加載 1.2 數據統計描述和可視化 1、數據類型查看 2、特徵缺失值查看 3、變量統計描述 4、特徵變量與目標變量的相關性 二、數據預處理 2.1 名字字符串提取title 2.2 缺失值填充 2.3 類別