原创 支持向量機SVM

目錄 1、線性可分支持向量機 1.1、間隔最大化 1.2、對偶函數 1.3、分隔超平面、決策函數、支持向量 2、線性支持向量機 2.1、軟間隔最大化 2.2、對偶函數 2.3、分離超平面、決策函數、支持向量 3、非線性支持向量機 3.1、

原创 [個性化推薦]基於隱式反饋的矩陣分解ALS(spark實現)

目錄 一、ALS模型 1、模型定義 2、參數求解 3、推薦計算 二、pyspark實現ALS模型 一、ALS模型 1、模型定義 用戶u對商品i的偏好:        其中,在隱式反饋中無法獲取用戶對商品明確的評分,在視頻推薦場景中rui

原创 python實現鏈表基本操作

目錄 一、鏈表類定義 二、查找鏈表的中間結點 三、檢測鏈表是否有環 四、刪除鏈表倒數第n個結點 五、兩個有序鏈表合併 六、鏈表反轉 七、判斷鏈表是否是迴文字符串 一、鏈表類定義 結點定義: class Node: de

原创 樹模型與線性模型的融合模型(Python實現)

目錄 一、樹模型與線性模型的融合模型 二、Python sklearn實現GBDT+LR融合模型 一、樹模型與線性模型的融合模型 樹模型GBDT原理:https://blog.csdn.net/woniu201411/article/de

原创 [spark]在集羣上運行spark

目錄 1、spark運行時架構 2、兩種操作:轉化操作和行動操作 3、在集羣上運行應用程序 4、使用spark-submit部署應用 1、spark運行時架構 運行時架構描述: spark-submit啓動驅動器 驅動器和集羣管理器通信

原创 [個性化推薦]基於鄰域的算法-協同過濾算法

目錄 1、相似度的度量 2、基於用戶的協同過濾算法 2.1 算法原理 2.2 用戶相似度計算的改進 2.3 使用的場景 3、基於物品的協同過濾算法 3.1 算法原理 3.2 物品相似度計算的改進 3.3 使用的場景 4、userCF和it

原创 [圖]python實現圖的遍歷、最小生成樹、最短路徑

目錄 1、圖遍歷 2、最小生成樹-Prime算法 3、最短路徑-Dijkstra算法 圖的兩種常用的表示方式是鄰接矩陣和鄰接表。以下以鄰接矩陣爲例,圖的初始化定義: class Graph(): def __init__(sel

原创 XGBoost模型理解(python實現)與GBDT/RF模型對比

目錄 一、XGBoost模型理解 1、損失函數定義 2、正則項 3、樹結構 4、XGBoost算法總結: 二、XGBoost、GBDT、RF三種集成模型比較 三、XGBoost模型Python實現 一、XGBoost模型理解 監督學習的目

原创 spark共享變量:累加器與廣播變量

累加器        累加器提供了將工作節點中的值聚合到驅動器程序中的簡單語法。累加器一個常見用途是,在調試時對作業執行過程中的事件進行計數。        執行行動操作後,累加器的值纔會更新;        累加器的值只有在驅動程序

原创 梯度提升樹GBDT模型原理及spark ML實現

目錄 一、GBDT模型原理 1.1  GB(Gradient Boost)算法 1.2 GBDT模型 二、spark ML機器學習庫中GBDT使用案例 三、GBDT與Boost算法比較 四、 GBDT與RF比較 一、GBDT模型原理  

原创 [機器學習算法]決策樹CART和隨機森林模型

目錄 一、決策樹CART 1.1分類決策樹 1.2迴歸決策樹 1.3 決策樹優點與缺點 二、隨機森林RF 2.1隨機森林的生成 2.2 隨機森林的特點 一、決策樹CART         CART分類迴歸樹是一種典型的二叉決策樹,可以處理

原创 [spark]計算商品相似度

一、商品相似度定義      基於物品的協同過濾算法是業界應用最多的算法,它的思想是給用戶推薦那些和他們喜歡的物品相似的物品,主要分爲兩個步驟:一,計算物品之間的相似度;二,根據物品相似度和用戶的歷史行爲給用戶生成推薦列表。物品i和物品j

原创 [模型優化]模型欠擬合及過擬合判斷、優化方法

1、模型欠擬合及過擬合簡介 2、模型欠擬合及過擬合判斷 3、模型欠擬合與過擬合的優化方法   一、模型欠擬合及過擬合簡介 模型應用時發現效果不理想,有多種優化方法,包含:   添加新特徵 增加模型複雜度 減小正則項權重 獲取更多訓練樣本

原创 [機器學習算法]邏輯迴歸模型、優缺點及spark ml機器學習庫實現LR

一、邏輯迴歸模型 1.1 模型定義    1.2 損失函數                    1.3 梯度下降求解參數 迭代直至收斂   二、邏輯迴歸模型優缺點分析 優點: 結果通俗易懂,自變量的係數直接與權重掛鉤,可以

原创 [特徵工程]數據預處理的方法和技巧

      數據抽取要正確反映業務需求 處理缺失值和異常值 數據轉換 篩選有效的輸入變量 變量共線性問題       工業界有一個大家公認的看法,“數據和特徵決定了數據挖掘項目的上限,而算法只是儘可能地逼近這個上限”。在實戰中,特徵工程幾