原创 激活函數總結RELU,Leaky RELU

ReLU 修正線性單元(Rectified linear unit,ReLU)是神經網絡中最常用的激活函數。 ReLu激活函數的優點是: 1,相比Sigmoid/tanh函數,使用梯度下降(GD)法時,收斂速度更快 2,相比Sigmoid

原创 Batch Normalization原理總結

Batch Normalization 是Google於2015年提出的一種歸一化方法。 BN帶來以下優點: 加速訓練過程; 可以使用較大的學習率; 允許在深層網絡中使用sigmoid這種易導致梯度消失的激活函數; 具有輕微地正則化效果,

原创 正則化方法 L1和L2

模型訓練是圍繞解決模型的欠擬合問題展開的,通過最小化損失函數來減小模型預測值與真實值之間的誤差。因爲數據集中總會有一些噪聲,模型在擬合數據時可能會把噪聲也擬合進來,導致模型過擬合。 正則化是對損失函數的一種懲罰,即對損失函數中的某些參數進

原创 pyfasttext 安裝報錯 subprocess.CalledProcessError: Command '['sh', 'configure']'

pyfasttest依賴 Cython and cysignals. 1 安裝Cpython 採用非編譯方式安裝 pip install Cython --install-option="--no-cython-compile"  

原创 提升方法算法原理總結

目錄 1 提升方法Adaboost算法 1.1提升方法的基本思路 1.2 AdaBoost算法 2 AdaBoost算法解釋 2.1 前向分步算法 3 提升樹 3.1 提升樹模型 3.2 提升樹算法 3.3 梯度提升 1 提升方法Adab

原创 決策樹詳細筆記及python實現

決策樹優點:模型具有可讀性、分類速度快。 決策樹的學習包括3個步驟:特徵選擇、決策樹的生成、決策樹剪枝。 1 決策樹模型與學習 決策樹的學習本質上是從訓練數據集中歸納出一組分類規則。損失函數通常是正則化的極大似然函數。 決策樹學習 的算法

原创 論文:Self-Attention with Relative Position Representations

動機 RNN的結構是通過隱狀態對序列信息進行編碼的。 第二個 I 的輸出和第一個 I 的輸出是不同的,這是因爲輸入到其中的隱狀態是不同的。對於第二個 I 來說,隱狀態經過了單詞"I think therefore",而第一個 I 是剛剛

原创 深度學習優化器總結

  Adam優化器   計算t時間步的梯度:   首先,計算梯度的指數移動平均數, 初始化爲0。 係數爲指數衰減率,控制權重分配(動量與當前梯度),通常取接近於1的值。默認爲0.9   其次,計算梯度平方的指數移動平均數,初始化爲0

原创 RandomForest 調參

在scikit-learn中,RandomForest的分類器是RandomForestClassifier,迴歸器是RandomForestRegressor,需要調參的參數包括兩部分,第一部分是Bagging框架的參數,第二部分是CA

原创 Attention Is All You Need

Motivation: 靠attention機制,不使用rnn和cnn,並行度高 通過attention,抓長距離依賴關係比rnn強     Scaled Dot-Product Attention 其中,  其中因子起到調節作用,

原创 Pytorch 用法總結

創建Tensor   修改Tensor形狀   a = torch.randn(3,4) print(a.size()) # torch.Size([3, 4]) print(torch.numel(a)) # 12 b=a.

原创 論文:Character-Level Language Modeling with Deeper Self-Attention

語言模型 語言模型通常用條件概率分佈進行表示: 爲了實現,使用causal attention將當前詞後面的詞mask掉。causal attention其實與transformer的decode部分中的masked attention

原创 Numpy 用法總結

1 生成Numpy數組 從已有數據中創建數組 import numpy as np ls1 = [1,2,3] nd1 = np.array(ls1) print(type(nd1)) 利用random模塊生成數組 np.rando

原创 機器學習中,特徵選擇有哪些方法?

1 特徵工程是什麼? 有這麼一句話在業界廣泛流傳:數據和特徵決定了機器學習的上限,而模型和算法只是逼近這個上限而已。那特徵工程到底是什麼呢?顧名思義,其本質是一項工程活動,目的是最大限度地從原始數據中提取特徵以供算法和模型使用。通過總結和

原创 人臉識別mtcnn原理

  人臉檢測,也就是在圖片中找到人臉的位置。輸入是一張可能含有人臉的圖片,輸出是人臉位置的矩形框。 人臉對齊。原始圖片中人臉的姿態、位置可能有較大的區別,爲了之後統一處理,要把人臉“擺正”。爲此,需要檢測人臉中的關鍵點(Landmark)