原创 處理正負樣本不均衡問題

在原文的基礎上 Ref: https://www.zhihu.com/question/27535832/answer/223882022 進行修改。 記憶輔助:樣本不均衡就是正樣本太少,負樣本太對,(1)增加正樣本-過採樣;減少負樣本-

原创 矩陣分解之: 特徵值分解(EVD)、奇異值分解(SVD)、SVD++

  目錄: 1.矩陣分解     1.1 矩陣分解的產生原因     1.2 矩陣分解作用     1.3 矩陣分解的方法     1.4 推薦學習的經典矩陣分解算法 2. 特徵值分解(EVD) 3. 奇異值分解(SVD) 4. SVD+

原创 排序模型對比

  LR 可以視作單層單節點的“DNN”, 是一種寬而不深的結構,能夠處理高緯度稀疏問題,。 模型優點是簡單、高效、可控性好,模型可解釋: 所有的特徵直接作用在最後的輸出結果上 但是效果的好壞直接取決於特徵工程的程度,需要非常精

原创 DeepFM對FM、FNN、PNN、wide&deep模型

1. CTR預估 CTR預估數據特點: 1. 輸入中包含類別型和連續型數據。類別型數據需要one-hot,連續型數據可以先離散化再one-hot,也可以直接保留原值 2. 維度非常高 3. 數據非常稀疏 4. 特徵按照Field分組 C

原创 聚類算法 - K-Means、二分K-Means、K-Means 、K-Means||、Canopy、Mini Batch K-Means算法

K-Means 系列:K-Means,二分K-Means,K-Means++,K-Meansll,canopy算法,MiniBatchK-Means算法。   K-Means系列聚類算法原理: https://www.cnblogs.co

原创 XGBoost 和 LightGBM 對比

Ref:20道XGBoost面試題  https://mp.weixin.qq.com/s?__biz=MzI1MzY0MzE4Mg==&mid=2247485159&idx=1&sn=d429aac8370ca5127e1e786995

原创 Python魔法方法總結及注意事項

  1、何爲魔法方法:   Python中,一定要區分開函數和方法的含義;   1.函數:類外部定義的,跟類沒有直接關係的;形式: def func(*argv):   2.方法:class內部定義的函數(對象的方法也可以認爲是屬性);分

原创 深度學習中的多任務學習-multi-learning總結

  多任務學習(Multi-task learning)的兩種模式 深度學習中兩種多任務學習模式:隱層參數的硬共享與軟共享。 隱層參數硬共享,指的是多個任務之間共享網絡的同幾層隱藏層,只不過在網絡的靠近輸出部分開始分叉去做不同的任務。 隱

原创 python稀疏格式儲存coo_matrix/csr_matrix/csc_matrix

概述 在用python進行科學運算時,常常需要把一個稀疏的np.array壓縮,這時候就用到scipy庫中的sparse.csr_matrix(csr:Compressed Sparse Row marix) 和sparse.csc_ma

原创 評估指標彙總

  1.混淆矩陣(Confusion matrix) 混淆矩陣是理解大多數評價指標的基礎,毫無疑問也是理解AUC的基礎。這裏用一個經典圖來解釋混淆矩陣是什麼。 顯然,混淆矩陣包含四部分的信息: True negative(TN),稱爲

原创 fasttext 與 word2vec、doc2vec 的區別

          相似: 圖模型結構很像,都是採用embedding向量的形式,得到word的隱向量表達。 都採用很多相似的優化方法,比如使用Hierarchical softmax優化訓練和預測中的打分速度。 不同點: 1.word2

原创 各種優化算法之間關係

Ref:https://www.zhihu.com/question/323747423/answer/790457991 首先看一下下面的流程圖,機器學習中常用的一個有梯度優化算法之間的關係: 隨機梯度下降SGD: 隨機採樣一個樣本,

原创 圖模型-隨機遊走算法

文章目錄 推薦基本概念 PageRank PersonalRank TextRank SimRank 推薦基本概念 其中用戶user=[A,B,C],物品item=[a,b,c,d],用戶和物品有以下的關係 上述便是一個典型的二分圖,我

原创 DeepFM模型調參

Ref: https://tech.meituan.com/2018/06/07/searchads-dnn.html 影響神經網絡的超參數非常多,神經網絡調參也是一件非常重要的事情。工業界比較實用的調參方法包括: 網格搜索/Grid S

原创 一臺ubuntu服務器部署多臺tomcat ,並實現外網訪問:

一開始部署多個tomcat ,參考https://blog.csdn.net/qq839177306/article/details/78471058 ,發現這篇博客寫的不對,,謹慎一點說就是:至少我沒有成功實現. ,按照上面鏈接操作可能