原创 推薦系統 - 深度興趣網絡DIN(Deep Interest Network)淺析和實現

本文收錄在推薦系統專欄,專欄系統化的整理推薦系統相關的算法和框架,並記錄了相關實踐經驗,所有代碼都已整理至推薦算法實戰集合(hub-recsys)。 目錄 一. 論文淺析 1.1 注意力機制-attention 1.2 激活函數-Di

原创 推薦系統 - 專欄目錄

本文收錄在推薦系統專欄,專欄系統化的整理推薦系統相關的算法和框架,並記錄了相關實踐經驗,所有代碼都已整理至推薦算法實戰集合(hub-recsys)。 通往機器學習算法工程師的進階之路是崎嶇險阻的,爲了系統化的記錄自己在推薦系統方向的學

原创 推薦系統 - FM模型原理和實踐

本文收錄在推薦系統專欄,專欄系統化的整理推薦系統相關的算法和框架,並記錄了相關實踐經驗,所有代碼都已整理至推薦算法實戰集合(hub-recsys)。 目錄 一. FM概述 二. FM原理 2.1 模型推導 2.2 模型求解 三. FM

原创 Hive入門及常用指令

Hive是基於Hadoop的數據倉庫解決方案,簡單來說,Hive就是在Hadoop上架了一層SQL接口,可以將SQL翻譯成MapReduce去Hadoop上執行,這樣就使得數據開發和分析人員很方便的使用SQL來完成海量數據的統計和分析,

原创 異常檢測(Anomaly Detection)導論

除了深度學習之外,在實際業務中,我們通常會遇到異常檢測的任務,需要我們運用不同的算法實現對異常值的檢測。該系列是自己對異常值檢測的整理以及反思。 文章目錄1.異常檢測的定義和應用a.Markdown及擴展表格代碼塊目錄數學公式

原创 hadoop中的常用命令

1.查看hive表在hdfs上的存儲位置 hive> show create table dj_test.hxy_coma_arrived_dri_often_stay; LOCATION   'hdfs://DClusterNmg4/u

原创 傳統算法: 匈牙利算法&KM算法

做爲一個算法工程師,除了瞭解各種NN網絡結構,調的一手好參數,傳統算法這一部分也不能拉下。因此着手寫這個系列,一方面加深自己對算法的理解,另一方面探討在實際業務中的應用,畢竟AC不是目的,融匯貫通的應用纔是真目標。 問題: 剛入職某網

原创 Shell常用命令

列出當天訪問次數最多的IP 命令:cut -d- -f 1 /usr/local/apache2/logs/access_log |uniq -c | sort -rn | head -20 原理:        cut        -

原创 IJCAI-18 阿里媽媽搜索廣告轉化預測方案復現

開源代碼:https://github.com/YouChouNoBB/ijcai-18-top2-single-mole-solution

原创 常見的機器學習性能衡量方法

在構建模型並調優時,關鍵的一步是確認模型的評估標準。對於常見的監督學習而言,主要有分類和迴歸兩類;1.迴歸的評價指標主要有MSE,RMSE,MAE。2.分類的評價指標有精確率、召回率、F1、AUC和ROC曲線。評價指標之間相互聯繫,同時

原创 iForest的算法原理和詳解

"An outlier is an observation which deviates so much from other observations as to arouse suspicions that it was gener

原创 論文閱讀:Real-time anomaly detection system for time series at scale

這篇文章主要從工業級的應用來說明如何搭建一個異常檢測的系統。

原创 梯度下降及其優化算法綜述

優化神經網絡的模型參數時,梯度下降(Gradient Descent)是最常採用的方法之一,本文旨在讓讀者對梯度下降及其優化版本的算法有直觀的認識。首先介紹梯度下降的三種變體(BGD,SGD,MBGD),總結三者在訓練的過程中所面臨的挑

原创 幾種常見的Graph Embedding方法

圖(Graph)是一個常見的數據結構,現實世界中有很多很多任務可以抽象成圖問題,比如社交網絡,蛋白體結構,交通路網數據,以及很火的知識圖譜等,甚至規則網絡結構數據(如圖像,視頻等)也是圖數據的一種特殊形式。針對graph的研究可以分成三