Vision Transformers的注意力層概念解釋和代碼實現

2017年推出《Attention is All You Need》以來,transformers 已經成爲自然語言處理(NLP)的最新技術。2021年,《An Image is Worth 16x16 Words》,成功地將transformers 用於計算機視覺任務。從那時起,許多基於transformers的計算機視覺體系結構被提出。

本文將深入探討注意力層在計算機視覺環境中的工作原理。我們將討論單頭注意力和多頭注意力。它包括注意力層的代碼,以及基礎數學的概念解釋。

在NLP應用中,注意力通常被描述爲句子中單詞(標記)之間的關係。而在計算機視覺應用程序中,注意力關注圖像中patches (標記)之間的關係。

有多種方法可以將圖像分解爲一系列標記。原始的ViT²將圖像分割成小塊,然後將小塊平攤成標記。《token -to- token ViT》³開發了一種更復雜的從圖像創建標記的方法。

 

https://avoid.overfit.cn/post/0d526cd56c8842c599b4fe1c9adcfd9f

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章