An Image Is Worth 16x16 Words: Transformers For Image Recognition At Scale

模型如下圖所示:

將H×W×C的圖像reshape成了N×(P2×C),其中(H,W)是圖像的原始分辨率,C是通道數,(P,P)是每個圖像塊的分辨率,N=H×W/P2爲圖像塊的數量,將一個圖像塊使用可學習的線性層映射到維度爲D的隱藏向量,如式(1)所示,線性映射的輸出稱爲patch embeddings.在patch embeddings之前增加了一個可學習的embedding:xclass.patch embeddings後面的是position embeddings,用於保留位置信息,再加上多頭自注意力(MSA),MLP,Layernorm(LN),最後輸出Encoder.

 

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章