台部落辰星M

原创 [矩陣分解]基於隱式反饋的矩陣分解ALS（spark實現）

目錄一、ALS模型 1、模型定義 2、參數求解 3、推薦計算二、pyspark實現ALS模型三、矩陣分解模型與協同過濾模型比較一、ALS模型 1、模型定義用戶u對商品i的偏好：其中，在隱式反饋中無法獲取用戶

2020-06-02 02:05:20

3

原创 [spark性能調優]spark submit資源參數調優及amazon集羣示例

目錄一、spark作業基本運行原理二、資源參數調優 Spark內存管理：三、amazon集羣資源參數示例一、spark作業基本運行原理資源申請與分配：我們使用spark-submit提交一個spark作業後

2020-06-02 02:05:20

原创 [近鄰推薦]基於鄰域的算法-協同過濾算法

目錄 1、相似度的度量 2、基於用戶的協同過濾算法 2.1 算法原理 2.2 用戶相似度計算的改進 2.3 使用的場景 3、基於物品的協同過濾算法 3.1 算法原理 3.2 物品相似度計算的改進 3.3 使用的場景 4、userCF和it

2020-06-02 02:05:20

原创 [kaggle]Titanic生還概率預測，accuracy-0.79425

目錄一、數據摸底 1.1 數據加載 1.2 數據統計描述和可視化 1、數據類型查看 2、特徵缺失值查看 3、變量統計描述 4、特徵變量與目標變量的相關性二、數據預處理 2.1 名字字符串提取title 2.2 缺失值填充 2.3 類別

2020-06-02 02:05:09

原创 [tensorflow]tf.data.Dataset數據輸入管道

目錄一、tf.data簡介二、讀取數據 1、從內存中讀取數據-numpy數組 2、從文件中讀取數據三、變換Dataset中的元素 1、使用Dataset.map()預處理數據 2、使用Dataset.batch()批處理數據集元素

2020-06-02 02:05:09

4

原创排序算法總結及Python實現

目錄一、冒泡排序、選擇排序和插入排序:O(n*n) 1、冒泡排序 2、選擇排序 3、插入排序二、歸併排序和快速排序:O(nlogn) 1、歸併排序 2、快速排序三、桶排序和基數排序:O(n) 1、桶排序 2、基數排序一、冒泡排序、

2019-07-10 18:06:44

原创卷積神經網絡CNN參數優化

一、訓練神經網絡模型 1、神經網絡訓練流程變量初始化：通過滿足正態分佈的隨機數來初始化神經網絡中的參數是一個常用的方法。部分訓練數據：在每次迭代的開始，首先需要選取一小部分訓練數據，這一小部分數據叫做一個batch。這個batch的

2019-07-02 18:02:25

原创 spark性能優化-數據傾斜

背景：計算同一品類兩兩商品的相似度，已有的數據結構：[(cid,int); (pid,int); (features,vector)]，商品數4W，商品對8W，用時8h。分析是由於數據傾斜導致，例如cid1有100個商品，

2019-06-27 06:20:50

原创 [spark]總結spark ML機器學習庫（pyspark.ml）

目錄一、pyspark.ml.feature特徵處理二、pyspark.ml模型三、pyspark.ml.tuning參數遍歷一、pyspark.ml.feature特徵處理方法描述功能連續特徵離散化 Binarize

2019-06-10 20:03:17

原创京東基於商品圖片的個性化推薦:Telepath

目錄一、推薦算法框架二、京東Telepath模型一、推薦算法框架推薦系統框架如上圖所示，主要包含兩個重要模塊：檢索模塊（Retrieval）和排序模塊（Ranking）。檢索模塊獲取推薦結果候選集，排序模塊對待推薦的商品排序，最

2019-06-10 20:03:16

原创 [tensorflow]tf.estimator.Estimator構建tensorflow模型

目錄一、Estimator簡介二、數據集三、定義特徵列四、estimator創建模型五、模型訓練、評估和預測六、模型保存和恢復一、Estimator簡介 Estimator是TensorFlow對完整模型的高級表示。Tens

2019-04-28 23:34:57

3

原创 [tensorflow]tf.data數據導入

目錄一、tf.data簡介二、讀取數據 1、從內存中讀取數據-numpy數組 2、從文件中讀取數據三、變換Dataset中的元素 1、使用Dataset.map()預處理數據 2、使用Dataset.batch()批處理數據集元素

2019-04-19 18:37:11

6

原创卷積神經網絡CNN結構及TensorFlow實現

目錄一、卷積神經網絡CNN的結構 1、卷積層CONV 2、池化層POOL 3、全連接層FC 二、使用tensorflow Estimator構建CNN MNIST分類器 1、CNN模型函數 2、訓練和評估CNN分類器一、卷積神經網絡

2019-03-26 17:50:31

原创 [tensorflow]圖片新類別再訓練-花分類-代碼整理

目錄一、新類別模型的再訓練 1、圖片加載，並將數據集劃分爲訓練集、測試集、驗證集，比例分別爲80%，10%，10%（默認） 2、加載hub某個模型，拉取模型信息，創建圖 3、計算所有圖片的bottlenecks(特徵向量)，並緩存 4、

2019-03-13 00:54:24

3

原创 [kaggle]Titanic生還概率預測

目錄一、數據摸底 1.1 數據加載 1.2 數據統計描述和可視化 1、數據類型查看 2、特徵缺失值查看 3、變量統計描述 4、特徵變量與目標變量的相關性二、數據預處理 2.1 名字字符串提取title 2.2 缺失值填充 2.3 類別

2019-02-28 01:12:28

1