svm-loss 關於權重矩陣W的導數（cs231n Assignment 1）

先給出相應習題的代碼，各位可以自行領會一下：

def svm_loss_vectorized(W, X, y, reg):
  """
  Structured SVM loss function, vectorized implementation.

  Inputs and outputs are the same as svm_loss_naive.
  """
  loss = 0.0
  dW = np.zeros(W.shape) # initialize the gradient as zero
  scores = X.dot(W)
  num_train = X.shape[0]
  num_type = W.shape[1]
  print(num_type)
  #############################################################################
  # TODO:                                                                     #
  # Implement a vectorized version of the structured SVM loss, storing the    #
  # result in loss.                                                           #
  #############################################################################
  correct_scores = scores[range(num_train), y].reshape(-1, 1)
  pre_loss = scores + 1 - correct_scores
  loss = (np.sum(np.maximum(pre_loss, 0)) - num_train) / num_train + reg * np.sum(W * W)
  #############################################################################
  #                             END OF YOUR CODE                              #
  #############################################################################

  #############################################################################
  # TODO:                                                                     #
  # Implement a vectorized version of the gradient for the structured SVM     #
  # loss, storing the result in dW.                                           #
  #                                                                           #
  # Hint: Instead of computing the gradient from scratch, it may be easier    #
  # to reuse some of the intermediate values that you used to compute the     #
  # loss.                                                                     #
  #############################################################################
  mask = np.ones(scores.shape)
  cnt = pre_loss > 0
  mask[range(num_train), y] = 1 - np.sum(cnt, axis = 1)
  dW = X.T.dot(mask * (pre_loss > 0)) / num_train + 2 * reg * W
  #############################################################################
  #                             END OF YOUR CODE                              #
  #############################################################################

  return loss, dW

本題是cs231n Assignment 1中關於svm-loss向量化方法的一個思路，並不是嚴格的數學證明。

首先給出SVM-loss的表達式
設輸入矩陣爲X ，X∈RN×D ,y 爲樣本標籤集y∈RN×1 ,權重矩陣爲W ， W∈RD×C ,
其中N 爲訓練樣本的個數，D 爲樣本的維數, C 爲標籤的種類數，
設S 爲SVM的輸出矩陣 S=XW∈RN×C ，

L = 1 N \sum i = 1 N \sum j = 1, j \neq y i C m a x (S i, j - S i, y i + 1, 0)

關於svm-loss函數此處不再贅述，詳細請參加CS231n的課程內容

在CS231n 的Assignment 1中要求向量化svm-loss函數對於權重矩陣W的導數，即dLdW

這裏我們將L 的表達式稍做變形, 由於對任意給定的i 有且只有一個j , 使得j=yi (因爲yi 唯一)
且對於該j=yi ， max(Si,j−Si,yi+1,0) 恆等於1，從而，L 可以變形爲:

L = 1 N \sum i = 1 N [\sum j = 1 C (m a x (S i, j - S i, y i + 1, 0)) - 1] = 1 N \sum i = 1 N \sum j = 1 C (m a x (S i, j - S i, y i + 1, 0)) - 1

max函數不方便處理，所以我們考慮消去max，由於

max(Si,j−Si,yi+1,0) 在

Si,j−Si,yi+1<0 時爲0故，

L 可以簡化爲

L = 1 N \sum i = 1 N \sum j = 1 C (m a x (S i, j - S i, y i + 1, 0)) - 1 = 1 N \sum i = 1 N \sum j = 1 C (S i, j - S i, y i + 1) - 1, 其 中 i ， j 滿 足 S i, j - S i, y i + 1 > 0

展開

Si,j 與

Si,yi 得到

L = 1 N \sum i = 1 N \sum j = 1 C (\sum k = 1 D X i, k W k, j - \sum k = 1 D X i, k W k, y i + 1) - 1, 其 中 i ， j 滿 足 S i, j - S i, y i + 1 > 0

下面我們就可以比較方便的求導了，考慮

L 對

Wk,j 的導數（爲了便於此處的

j 與上式中

j 混淆，我們將上式中的

j 換成字母

l 進行求導）

d L d W k , j = 1 N \sum i = 1 N (X i, k - X i, k \sum l = 1 C d W k , y i d W k , j) = 1 N \sum i = 1 N (X i, k (1 - \sum l = 1 C d W k , y i d W k , j)), i 需 滿 足 S i, j - S i, y i + 1 > 0 ， 且 其 中 第 i 行 的 l 滿 足 S i, l - S i, y i + 1 > 0

對於

k,j 取定的情況，上式可以寫作兩個向量相乘，同時對條件進行相應的等價變換

dLdWk,j=[X1,kX2,k...XN,k]⎡⎣⎢⎢⎢⎢⎢⎢⎢⎢⎢⎢⎢1−∑Cl=1dWk,y1dWk,j1−∑Cl=1dWk,y2dWk,j...1−∑Cl=1dWk,yNdWk,j⎤⎦⎥⎥⎥⎥⎥⎥⎥⎥⎥⎥⎥

第i行的i需滿足Si,j−Si,yi+1>0，否則該行對應項爲0，且其中第i行的l滿足Si,l−Si,yi+1>0,

可以觀察到等式右邊的行向量實際上是 XT 的第1行。同時，聯繫到梯度矩陣的緯度，
dLdW∈RD×C=RD×N∗RN×C ，我們猜測dLdW 是XT 乘上式等式右邊列向量的一個拓展得到。然而，上述列向量實際上有兩個參數k與j ，取遍所有的k,j 我們將得到一個三維矩陣，這顯然不是我們想要的RN×C 的矩陣。實際上我們會發現，上述列向量的值實際上只與j 有關而與k無關，dWk,yidWk,j={1,j=yi0,j≠yi ，拓展該向量，我們只需要取不同的j 即可（注意，條件要同時進行拓展），
於是我們得到了一個RN×C 的矩陣,記爲mask ,mask=⎡⎣⎢⎢⎢⎢⎢⎢⎢⎢⎢⎢⎢1−∑Cl=1dWk,y1dWk,11−∑Cl=1dWk,y2dWk,1...1−∑Cl=1dWk,yNdWk,11−∑Cl=1dWk,y1dWk,21−∑Cl=1dWk,y2dWk,2...1−∑Cl=1dWk,yNdWk,2.........1−∑Cl=1dWk,y1dWk,C1−∑Cl=1dWk,y2dWk,C...1−∑Cl=1dWk,yNdWk,C⎤⎦⎥⎥⎥⎥⎥⎥⎥⎥⎥⎥⎥
第i行第j列的元素需滿足Si,j−Si,yi+1>0，否則該元素爲0,且其中第i行的l滿足Si,l−Si,yi+1>0,

事實上
dLdW=XTL

剩下的問題就是如何計算mask

觀察到L矩陣的每一項都有1，我們初始化mask矩陣爲np.ones([D, C])
接下來就是矩陣中每個entry中導數部分的計算了
首先，我們可以利用broadcast計算出矩陣Si,j−Si,yi+1，其中0<=i<N,0<=j<=C(代碼中矩陣下標從0開始) 在我的代碼爲pre_lost ,該矩陣實際上在計算lost時也用到了。

  correct_scores = scores[range(num_train), y].reshape(-1, 1)
  pre_loss = scores + 1 - correct_scores

pre_lost > 0就可以作爲bool矩陣表示條件第i行第j列的元素需滿足Si,j−Si,yi+1>0
下面計算每一行的l值，實際上每一行的l的意義就是每一行中pre_lost>0矩陣中爲True的元素個數，利用np.sum函數對pre_lost>0的每行進行加和就可得到。
mask矩陣與dW計算代碼爲：（別忘了L2 Regularization部分的導數）

  mask = np.ones(scores.shape)
  cnt = pre_loss > 0
  mask[range(num_train), y] = 1 - np.sum(cnt, axis = 1)
  dW = X.T.dot(mask * (pre_loss > 0)) / num_train + 2 * reg * W

大晚上敲完這篇筆記或許漏洞百出，請各位讀者見諒，改日再仔細檢查一下，如有錯誤懇請指正。

svm-loss 關於權重矩陣W的導數（cs231n Assignment 1）

svm-loss 關於權重矩陣W的導數（cs231n Assignment 1）

再談23種設計模式（3）：行爲型模式（學習筆記）

Power Automate Desktop 安裝完，登錄後老是提示one driver 錯誤

微前端學習筆記(4):從微前端到微模塊之EMP與hel-micro方案探索

微前端學習筆記（1）：微前端總體架構概述，從微服務發微

985 碩士程序員，空窗 4 個月沒有 Offer！

一文搞懂 Spring 循環依賴

賽博鬥地主——使用大語言模型扮演Agent智能體玩牌類遊戲。

VScode右鍵打開(添加到右鍵)

記一次 .NET某工控視覺自動化系統卡死分析

WindowsServer--SQL Server搭建主從同步實現讀寫分離 - 事務性分發

UVA 1599 Ideal Path

UVA 1600 Patrol Robot

UVA536 Tree Recovery

InfoGAN中公式5的理解

UVA1610 Party Games

Mac下配置sublime實現LaTeX

https://yachay.unat.edu.pe/blog/index.php?comment_area=format_blog&comment_component=blog&comment_co

linux以太網驅動總結