原创 推薦系統-冷啓動方案

最近調研了一些冷啓動方案,現彙總如下 商品冷啓動 商品冷啓動一般在item的embedding上優化 Graph Embedding 在Graph Embedding I2I的基礎上,加入商品的Side Information,進一步提升

原创 hadoop與spark的異同

解決問題的層面不一樣 首先,Hadoop和Apache Spark兩者都是大數據框架,但是各自存在的目的不盡相同。Hadoop實質上更多是一個分佈式

原创 tensorflow scope命名方法(variable_scope()與name_scope()解析)

學習資料: 不同 scope 對比代碼 reuse variable RNN 代碼 sharing variable tensorflow 官網介紹

原创 ValueError: Variable RNN/MultiRNNCell/Cell0/BasicLSTMCell/Linear/Matrix does not exist, disallowed.

ValueError: Variable RNN/MultiRNNCell/Cell0/BasicLSTMCell/Linear/Matrix does not exist, disallowed. Did you mean to set

原创 RNN(LSTM)用於分類

import tensorflow as tf import sys import random from sklearn.cross_validation import train_test_split from sklearn.

原创 深度學習之優化算法詳解

  梯度下降(batch gradient descent, stochastic gradientdescent, 以及 mini-batchgradient descent)現在的SGD一般都指mini-batch gradient

原创 中文分詞

什麼是中文分詞 衆所周知,英文是以 詞爲單位的,詞和詞之間是靠空格隔開,而中文是以字爲單位,句子中所有的字連起來才能描述一個意思。例如,英文句子I am a student,用中文則爲:“我是一個學生”。計算機可以很簡單通過空格知道s

原创 python 數據清洗之數據合併、轉換、過濾、排序

數據合併 在pandas中可以通過merge對數據進行合併操作。 import numpy as np import pandas as pd data1 = pd.DataFrame({'level':

原创 Command "python setup.py egg_info" failed with error code 1 in /tmp/pip-build-o2julgbe/xgboost/

Linux下通過pip install xgboost命令安裝xgboost出錯“XGBoostLibraryNotFound: Cannot find XGBoost Libarary in the candicate path, di

原创 通俗理解決策樹算法中的信息增益

在決策樹算法的學習過程中,信息增益是特徵選擇的一個重要指標,它定義爲一個特徵能夠爲分類系統帶來多少信息,帶來的信息越多,說明該特徵越重要,相應的信息增益也就越大。 1  概念 我們前面說了,信息熵是代表隨機變量的複雜度(不

原创 Batch Normalization & Layer Normalization整理(代碼實現下載)

以下爲layer normalisation文章解析: 摘要 訓練目前性能最好的深度神經網絡計算代價高昂. 一種減少訓練時間的方法是規範化神經元的激活值. 近期引入的批規範化(batch normalisation)技術對一個訓練

原创 神經網絡中的BP算法

在我們瞭解過神經網絡的人中,都瞭解神經網絡一個有很常見的訓練方法,BP訓練算法.通過BP算法,我們可以不斷的訓練網絡,最終使得網絡可以無限的逼近一種我們想要擬合的函數,最終訓練好的網絡它既能在訓練集上表現好,也能在測試集上表現不錯!

原创 python2與python3的版本差別

引言 Python 是一種極具可讀性和通用性的編程語言。Python 這個名字的靈感來自於英國喜劇團體 Monty Python,它的開發團隊有一個重要的基礎目標,就是使語言使用起來很有趣。Python 易於設置,並且是用相對直接

原创 準確率(Precision)、召回率(Recall)、F值(F-Measure)、ROC、AUC

下面簡單列舉幾種常用的推薦系統評測指標: 1、準確率與召回率(Precision & Recall) 準確率和召回率是廣泛用於信息檢索和統計學分類領域的兩個度量值,用來評價結果的質量。其中精度是檢索出相關文檔數與檢索出的文檔總數的比率,

原创 xgboost實現

def draw_result(filename): import numpy as np from scipy import interp import matplotlib.pyplot as plt