原创 梯度下降、隨機梯度下降法、及其改進

題目(155):當訓練數據量特別大時,經典的梯度下降法存在什麼問題,需要做如何改進? 題目(158):隨機梯度下降法失效的原因。 題目(160):爲了改進隨機梯度下降法,研究者都做了哪些改動?提出了哪些變種方法?它們各有哪些特點?

原创 機器學習中的凸和非凸優化問題

題目(145):機器學習中的優化問題,哪些是凸優化問題,哪些是非凸優化問題?請各舉一個例子。 凸優化定義 凸優化問題 非凸優化問題 凸優化定義:公式、geometric insight 凸優化問題:邏輯迴歸

原创 L1正則項與稀疏性

題目(164):L1正則化使得模型參數具有稀疏性的原理是什麼? 回答角度: 幾何角度,即解空間形狀 微積分角度,對帶L1限制的目標函數求導 貝葉斯先驗 解空間形狀 Step 1. 正則條件和限制條件的等價性 Step 2. L

原创 驗證梯度的正確性

題目(152):如何驗證求目標函數梯度功能的正確性? 考點:微積分、Taylor expansion 近似(微積分) 根據partial derivative的定義, ∂L(θ)∂θi=L(θ1,⋯ ,θi+h,⋯ ,θp)−L(

原创 Deep Learning相關概念

Epoch One Epoch is when an ENTIRE dataset is passed forward and backward through the neural network only ONCE [1

原创 Line Search Methods

重點 Armijo condition的直觀理解 背景: In gradient descent algorithms, step size may be too large or too small, as shown in

原创 無約束優化問題的求解

題目(148):無約束優化問題的優化方法有哪些? 複習點:一階、二階算法和Taylor expansion之間的關係 直接求解 迭代求解 一階算法 二階算法 直接求解 convex objective function

原创 CSDN-markdown cheatsheet

排版 加入空白行 [2] <br> (加在段末而非段首);或者<br/>加回車 文字居中 [3] <center>文字</center> 圖片 尺寸 <img src = "https://....png" width="10%

原创 Dropout network, DropConnect network

Notations input vvv output rrr weight parameter W∈Rd×mW \in \mathbb{R}^{d \times m}W∈Rd×m activation function aaa

原创 Curriculum adversarial training

Weakness of adversarial training: overfit to the attack in use and hence does not generalize to test data Curriculu

原创 調超參(lr,regularization parameter)經驗整理

Learning rate 最優值從1e-4到1e-1的數量級都碰到過,原則大概是越簡單的模型的learning rate可以越大一些。 [https://blog.csdn.net/weixin_44070747/article

原创 group sparsity

Group lasso β^λ=arg⁡min⁡β∥Y−Xβ∥22+λ∑g=1G∥βIg∥2,\hat{\bm \beta}_\lambda = \arg \min_{\bm \beta} \| \bm Y - \bm X \bm

原创 principal component analysis

Derivation (method of Lagrangian multiplier) Derivation First step: Find αk′x\bm \alpha'_k \bm xαk′​x that maxim

原创 調參之random initialization

Big picture on why we need randomness in stochastic algorithms randomness during initialization: as the structure

原创 Adversarial Robustness

Motivation: a limitation of the (supervised) ML framework\scriptsize{\text{: a limitation of the (supervised) ML fr