原创 論文解讀:Embedding-based News Recommendation for Millions of Users(附開源代碼)

本篇論文由日本雅虎團隊發表於KDD 2017,利用深度學習方法將用戶和文章進行embedding化,再進行推薦。 下載地址:http://dacemirror.sci-hub.tw/proceedings-article/b79bf692

原创 論文解讀:Attention is all your need

attention已經火了好長一段時間了,一直只是只聞其名不知其意,特地看了attention is all your need。     這篇論文摒棄了傳統encoder-decoder模型必須結合cnn或者rnn的固有模式,只用了at

原创 論文解讀:Session-based Recommendations with Recurrent Neural Networks

論文下載地址:https://arxiv.org/pdf/1511.06939.pdf 首先解釋一下什麼是Session,Session就是從用戶進入推薦界面到其離開的一次完整的行爲流程。 作者將rnn應用到session推薦任務中。在傳

原创 論文理解:Session-based Recommendations with Recurrent Neural Networks

https://arxiv.org/pdf/1511.06939.pdf 首先解釋一下什麼是Session,Session就是從用戶進入推薦界面到其離開的一次完整的行爲流程。 作者將rnn應用到session推薦任務中。在傳統的推薦任

原创 Siamese Network理解(附代碼)

author:DivinerShi 文章地址:http://blog.csdn.net/sxf1061926959/article/details/54836696 提起siamese network一般都會引用這兩篇文章: 《Le

原创 自定義交叉熵損失函數的幾個問題

交叉熵損失函數本身的公式比較簡單, 但是在實際定義的時候需要注意exp(x)函數的溢出問題, exp(x)函數在numpy或者說tensorflow的底層實現上,當x過大的時候會產生溢出,過小的時候直接範圍近似值0 所以我們在定義交叉熵損

原创 機器學習實踐(2)-邏輯迴歸

邏輯迴歸 邏輯迴歸是一個簡單的分類算法。 之前介紹過線性迴歸:https://blog.csdn.net/sxf1061926959/article/details/66976356 線性迴歸是最基本的迴歸模型,建議瞭解邏輯迴歸前可以先了

原创 hive操作總結

1. hive表中字段很多,需要從大量字段中去除一個或者幾個,寫出所有的字段很不美觀,可以使用正則完成 將hive.support.quoted.identifiers設置爲None,就可以使用正則表達式來取表的字段 set hive.

原创 機器學習實踐(1)

問題建模     解決一個機器學習問題,都先需要對問題進行分析,確定我們的目的是什麼,明確了目的後,對問題進行建立模型,建立的模型 前需要確定好我們建立的模型面對的目標,這個目標需要儘可能逼近最開始我們想解決問題的目的,只有我們最初的目的

原创 The Wide and Deep Learning Model(譯文+Tensorlfow源碼解析)

Author: DivinerShi 本文主要講解Google的Wide and Deep Learning 模型。本文先從原始論文開始,先一步步分析論文,把論文看懂。再去分析官方開源的Tensorflow源碼,解析各個特徵的具體實現方法

原创 總結梯度優化算法

一篇review:https://arxiv.org/abs/1609.04747 三個梯度下降變種: 批梯度下降(Vanilla gradient descent/batch gradient descent) 說白了就是最開始的bp用

原创 Xgboost推導及分析

Author: DivinerShi Xgboost其實就是gbdt的一個改進版本,但是因爲效果好,工程建設完善,所以經常和傳統的gbdt分開講。 Boost思想的話是每一步產生一個弱預測模型(如決策樹),並加權累加到總模型中,經典的

原创 生成對抗網絡GANs理解(附代碼)

author:DivinerShi 對抗網絡是14年Goodfellow Ian在論文Generative Adversarial Nets中提出來的。 記錄下自己的理解,日後忘記了也能用於複習。 本文地址: http://blog

原创 支持向量機(SVM)

Author: DivinerShi 線性迴歸可以簡單理解爲去找到一條線,使得這條線可以區分不同類的數據。那麼SVM就是去找到所有可行的線中,最優的那條。什麼叫最優?就是距離兩類數據都最遠的那條分割線。 優點: 可用於線性和非線性分類,

原创 Mac下單機安裝pyspark,更改python編譯器爲anaconda的編譯器,並且配置pycharm

本人習慣用pycharm開發,並且喜歡notebook以及anaconda自帶的各種庫,開發起來方便很多,所以在安裝好spark後,修改了默認的python編譯器到anaconda下,可以在notebook和pycharm中使用spark