【網絡結構】小議如何跳出魔改網絡結構的火坑

【網絡結構】小議如何跳出魔改網絡結構的火坑

機器學習算法與自然語言處理出品
@公衆號原創專欄作者 縱橫
知乎專欄 | 機器不學習

引言

0202 年,CV 領域已經相當內卷。知乎上,如何設計一個網絡擬合 xx 函數的討論層出不窮(e.g. 判斷一個數是奇數還是偶數、能否被 n 整除);學術上,爲了補充訓練集中缺少的先驗信息網絡結構被修改的搖搖欲墜:爲了學習位置信息(距離較遠的內容信息)各種 Attention 層出不窮;爲了應對旋轉(形變)信息, STN 被嫁接在混亂的拓撲圖中;對於 low-level 的任務,手動計算一個先驗的濾波器都不足爲怪;對於 high-level 的任務,GCN 開始被廣泛用於捕捉樣本間(流形)上的關聯關係;就在前幾天的 AAAI 上,老爺子還老當力壯,想要通過 capsule 網絡改善 CNN 的種種弊病......

在這種內卷情況下,和 CV 領域頭部的大佬直接拼刺刀着實有些困難。畢竟,(虛假的)idea 好想但是不好 work。那麼如何跳出魔改網絡結構的火坑呢?正如一個人有兩條腿走路,CV 領域也有模型和數據兩條腿。魔改模型不行,我們可以魔改數據集(跳入魔改數據集的火坑)!

回到 10 年前,特徵工程總比魔改 SVM 更直觀和有效,魔改數據集、在數據集中添加任務需要的先驗知識,比魔改模型結構更容易出成果(至少在競賽和我的部分科研實踐中如此)。結合目前 self-supervise 和 semi-supervise 的發展,這裏總結一些魔改數據集的 baseline idea,祝大家論文年年有,今年尤其多~

自監督學習

在數據集中,標籤的數量和標籤蘊含的信息往往是有限的。例如,在 ImageNet 上進行圖像分類任務時,標籤能夠爲模型提供圖片的類別信息,即,這張圖片是貓還是狗。但是,標籤並沒有顯式地指明,這張圖片表現的是一隻白色的貓還是一隻黃色的貓,是一隻正面拍攝的貓還是一隻側面拍攝的貓,貓的眼睛在貓的鼻子上面還是貓的鼻子下面等等。

對此,自監督希望充分利用數據的自身信息,根據圖像的結構或者特性,人爲構造標籤進行訓練(這個過程被稱爲 pretext 訓練)。pretext 訓練完後,再讓模型在有監督的數據集上 fine-tune,完成相關任務。其實質是,儘可能人爲地利用圖像,學習圖像中隱含的本質特徵。再用這種本質特徵作爲先驗知識,指導學習相關任務。
【網絡結構】小議如何跳出魔改網絡結構的火坑
目前,現有工作一般是基於“剔除-重構”策略構造標籤的。模型學習需要圖像中某方面特徵時,就將該部分特徵從原圖中剔除掉作爲標籤,再將被剔除掉部分特徵的圖像作爲模型的輸入,訓練模型重構被剔除的部分(標籤),從而學習到該方面的先驗知識。

LeCun 在 Energy-Based Self-Supervised Learning 中提到的“剔除-重構”策略
目前自監督學習的發展已經遠超 LeCun 當時的總結,異彩紛呈~這裏介紹一些常用的先驗知識學習方法:

顏色信息(Image Colorization)
高分辨率信息(Image Superresolution)
相對位置(內容)信息(Image Inpainting / Context Prediction / Image Jigsaw Puzzle)
形變信息(Geometric Transformation Recognition)
關聯信息(Image Clustering)



1. 顏色信息(Image Colorization)

要想學習物體的顏色作爲下游任務的先驗知識,我們只需要在原圖的基礎上剔除顏色信息,將原圖灰度化生成灰度圖,再訓練模型根據灰度圖重構原圖。這種策略在 Image Colorization 任務中很常見。

現有工作一般先對圖像進行灰度化。
【網絡結構】小議如何跳出魔改網絡結構的火坑

學習顏色信息 step 1:在原圖的基礎上剔除顏色信息
之後使用 Auto-Encoder 模型,將灰度圖作爲輸入重構彩色圖。在訓練時,將重構的彩色圖與原圖的 MSE(L2 距離)作爲損失函數,優化 Auto-Encoder 。

在訓練過程中,Auto-Encoder 能夠掌握圖像中物體的顏色信息,例如,天會被塗上藍色,山會被塗成綠色,雪會被塗成白色。Encoder 和 Decoder 都可以用在下游任務中取得較好的效果。
【網絡結構】小議如何跳出魔改網絡結構的火坑

學習顏色信息 step 2:訓練 Auto-Encoder 根據灰度圖重構原圖
[1] Colorful Image Colorization

[2] Real-Time User-Guided Image Colorization with Learned Deep Priors

[3] Let there be Color!: Joint End-to-end Learning of Global and Local Image Priors for Automatic Image Colorization with Simultaneous Classification

2. 高分辨率信息(Image Superresolution)

要想學習物體的高分辨率信息(細節信息)作爲下游模型的先驗知識,我們只需要在原圖的基礎上剔除細節信息,將原圖縮放成小圖,並訓練模型根據小圖重構原圖。這種策略在 Image Superresolution 任務中很常見。

現有工作一般使用雙線性差值對圖像進行縮放,得到原圖和其對應的小圖(縮略圖)。
【網絡結構】小議如何跳出魔改網絡結構的火坑

學習高分辨率信息 step 1:在原圖的基礎上剔除細節信息
之後使用 GAN 模型,將小圖作爲輸入重構高分辨率圖像。在訓練時,將重構的高分辨率圖像與原圖的 MSE(L2 距離)、內容損失(Content Loss)和對抗損失作爲生成器的損失函數,將二分類損失作爲判別器的損失函數,將生成器和判別器進行對抗訓練。

在訓練過程中,生成器能夠掌握圖像中物體的細節信息,生成逐漸清晰的圖像;判別器能夠掌握一張圖片的細節信息是否準確,判別生成圖像和原圖的差異。生成器和判別器都可以用在下游任務中取得較好的效果。
【網絡結構】小議如何跳出魔改網絡結構的火坑

學習高分辨率信息 step 2:訓練 SRGAN 根據灰度圖重構原圖
[4] Photo-Realistic Single Image Super-Resolution Using a Generative Adversarial Network

3. 相對位置(內容)信息(Image Inpainting / Context Prediction / Image Jigsaw Puzzle)

圖像中物體的上下文信息、或是不同物體的相對位置信息、亦或是遠距離物體的相關性在計算機視覺中扮演着重要的角色。在魔改網絡結構時,爲了學習這些信息,我們往往會設計各種 Attention 模塊。在自監督學習中,我們可以顯式地讓模型學習這些信息。目前,比較常見又(我認爲)有效的策略有三類。

第一種,要想學習物體的內容信息作爲下游模型的先驗知識,我們只需要在原圖的基礎上剔除某塊物體或區域,只保該留物體或區域的上下文,並訓練模型根據上下文重構原圖。這種策略在 Image Inpainting 任務中很常見。

現有工作一般先從圖像中隨機選擇(或者通過物體檢測選擇)一塊區域摳出。
【網絡結構】小議如何跳出魔改網絡結構的火坑

學習物體的內容信息 step 1:在原圖的基礎上剔除物體或區域
之後使用 GAN 模型,將圖像中摳出一塊區域所得的殘留圖(區域出現的上下文)作爲輸入,訓練模型修復出完整圖像。在訓練時,使用對抗損失作爲生成器的損失函數,使用二分類損失作爲判別器的損失函數,對生成器和判別器進行對抗訓練。

【網絡結構】小議如何跳出魔改網絡結構的火坑
學習物體的內容信息 step 2:訓練 GAN 根據上下文重構原圖(被剔除的物體或區域)

[5] Context encoders: Feature learning by inpainting

第二種方法認爲物體中不同局部的相對位置比紋理更能表達內容信息。例如,我們在觀察狗的時候,會發現狗的頭總在狗的身體上方。假如一種生物的身體在頭的上方,那麼這種生物肯定不是狗。要想學習這種物體隱含的相對位置信息,我們只需要在原圖的基礎上提取一個局部內連續的 9 塊區域(一箇中心區域及其 8 個方向的相鄰區域),保區域內的紋理信息,並訓練模型根據紋理預測區域在中心區域的哪個方向。這種策略在 Context Prediction 任務中很常見。

現有工作一般是將圖像中物體所在區域切分成 9 個 Patch,記錄 8 個 Patch 與中心 Patch 的相對位置關係(如下圖,1 對應左上)。
【網絡結構】小議如何跳出魔改網絡結構的火坑

學習物體內含的相對位置信息 step 1:原圖的基礎上剔除物體或區域中包含的相對位置信息
之後使用 CNN-based 的分類器,將中心區域和某一塊相鄰區域作爲輸入,用共享權重的特徵提取器分別提取特徵,合併兩區域的特徵並通過 MLP 輸出相鄰區域相對中心區域的方向(例如 6 是下)。在訓練時,使用多分類損失作爲損失訓練分類器學習相對位置信息。

【網絡結構】小議如何跳出魔改網絡結構的火坑
學習物體內含的相對位置信息 step 2:訓練 CNN 根據紋理重構相對位置信息
[6] Unsupervised Visual Representation Learning by Context Prediction

第三種,同樣是學習物體內含的相對位置信息,我們還可以將原圖切分成 9 塊區域進行隨機打亂,並訓練模型預測這 9 塊區域被打亂的方式屬於哪種情況。這種策略在 Image Jigsaw Puzzle 任務中很常見。

現有工作一般先將圖像分成 9 塊 Patch,定義對 9 塊 Patch 的 64 種打亂方式,每次從 64 種打亂方式裏隨機選一種進行打亂。
【網絡結構】小議如何跳出魔改網絡結構的火坑

學習物體內含的相對位置信息 step 1:原圖的基礎上剔除物體或區域中包含的相對位置信息
之後使用 CNN-based 的分類器(CFN),將 9 塊 Patch 作爲輸入,用共享權重的特徵提取器分別提取特徵,合併 9 個 Patch 的特徵並通過 MLP 輸出打亂的方式屬於 64 種中的哪一種。在訓練時,使用多分類損失作爲損失訓練分類器學習相對位置信息。
【網絡結構】小議如何跳出魔改網絡結構的火坑

學習物體內含的相對位置信息 step 2:訓練 CFN 根據紋理重構相對位置信息
[7] Unsupervised learning of visual representions by solving jigsaw puzzles

6. 形變信息(Geometric Transformation Recognition)

CNN 有限的旋轉不變性一直飽受研究者的詬病,在一些工作中,學習到物體的旋轉角度顯得十分重要。在魔改網絡結構時,爲了學習這些信息,我們往往嫁接 STN 模塊。在自監督學習中,我們可以顯式地讓模型學習這些信息。一些工作提出根據原圖生成不同方向新圖像(當然也可以理解爲剔除不同旋轉角度圖像中的旋轉角度得到原圖像),並訓練模型根據新圖像預測旋轉角度。這種策略在 Geometric Transformation Recognition 任務中很常見。

現有工作一般對圖像進行 0、90、180、270 度的旋轉,生成新圖像並記錄對應的旋轉角度。
【網絡結構】小議如何跳出魔改網絡結構的火坑

學習旋轉信息 step 1:原圖的基礎上生成不同方向新圖像

之後使用 CNN-based 的分類器,將旋轉後的圖像作爲輸入,預測旋轉角度。在訓練時,使用多分類損失作爲損失訓練分類器學習旋轉角度信息。

【網絡結構】小議如何跳出魔改網絡結構的火坑
學習旋轉信息 step 2:訓練 CNN 根據新圖像預測旋轉角度
[8] Unsupervised Representation Learning by Predicting Image Rotations

7. 關聯信息(Image Clustering)

在訓練 CNN 時,樣本間的關聯關係往往會被忽視,但是在圖像檢索等領域這些關聯關係卻對提高任務精度爲重要。在魔改損失函數時,我們可能會用到 metric learning;在魔改網絡結構時,我們會使用 GCN 計算節點之間的相似度進行圖卷積。而在自監督學習中,我們可以顯式地讓模型學習這些信息。

現有工作一般使用聚類算法先對圖像進行聚類,記錄聚類結果並將樣本標註上對應簇的標籤;(當然也可以理解爲剔除相關樣本帶來的簇信息)並訓練模型根據圖像預測樣本所屬的簇。相比於任務相關的類別標籤,簇所指向的標籤更符合數據本來的特徵(例如真假人臉分類可能會聚簇爲男女),粒度可能也更細(例如貓狗分類可能會聚簇成不同顏色的貓狗等)。

【網絡結構】小議如何跳出魔改網絡結構的火坑
學習樣本間的信息 step 1:對圖像進行聚類並記錄聚類結果作爲標籤
之後使用 CNN-based 的分類器(CFN),圖像作爲輸入,預測圖像所屬的簇。在訓練時,使用多分類損失作爲損失訓練分類器學習樣本間的模式差異。

【網絡結構】小議如何跳出魔改網絡結構的火坑
學習樣本間的信息 step 2:訓練 CNN 根據圖像預測簇標籤
[9] Deep clustering for unsupervised learning of visual features

∞. 時域、頻域上的推廣

上面介紹的工作大多選擇在空間上剔除信息(空域),一些工作還將自監督學習進一步推廣到了時域、頻域甚至熵域。例如,在句子(自然語言處理)中可以打亂詞的順序、或是摳去部分詞彙,再對缺失的信息進行重構;在視頻(視頻分析)中可以打亂幀的順序、或是摳去部分幀,再對缺失的信息進行重構;在音頻(音頻分析)中可以在頻譜圖上摳去部分頻段,再對缺失的信息進行重構等等。此外,自監督在 3D 視覺、醫學圖像、多模式識別等領域似乎也有很大可水的空間(逃

半監督學習

前面我們提到,在數據集中,標籤的數量和標籤蘊含的信息往往是有限的。而自監督希望充分利用數據自身,通過數據自身的結構或者特性,人爲構造標籤進行訓練(這個過程被稱爲 pretext 訓練)。

另外一些工作提出,在一部分數據集標籤未知的情況下,我們是否能夠根據已知樣本的標籤,人爲構造任務相關的標籤(通常被成爲代理標籤)進行訓練呢?這就是半監督學習的初衷。

有些同學會說,我們的數據集都是 banchmark,都是有監督的數據集,我們是否還需要半監督方法呢?答案是肯定的。在科研過程中,如果模型在某個數據集上表現尷尬,而創意卻很難割捨,我們(的朋友)往往會選擇擴充數據集構造一個新數據集進行驗證。但是擴充的數據集往往缺少標籤(錢),這時半監督的方法對比不失爲一種選擇。即使是在比賽中,外部數據集也經常會被摻雜在任務數據集中提高模型的泛化能力(甚至是在頻譜分類數據集中摻雜 Flickr)。這時的外部數據集八成是沒有任務相關的標籤了,我們就需要半監督學習來救場,生成任務相關的標籤。

根據生成的代理標籤所使用的“指導方向”的不同,這裏總結一些半監督學習的方法:

指向臨近的類別(Pseudo Labels / Entropy Minimization / Sharpen)
指向擾動後的自洽(Π-model / Temporal ensembling/ Mean Teacher / UDA)
指向對抗中的自洽(Virtual Adversarial Training)

  1. 指向臨近的類別(Pseudo Labels / Entropy Minimization / Sharpen)

如何爲沒有標籤的樣本創建一個代理標籤,最簡單的想法是使用模型在有標籤的數據上訓練,進而用該模型預測無標籤樣本所屬的類別,作爲該樣本的代理標籤(Pseudo Labels)。例如,模型對某樣本的預測是 20% 的可能是貓,30% 的可能是狗,50% 的可能是蘋果。我們就將該樣本標記爲蘋果。在後續的訓練過程中,用蘋果作爲標籤指導模型在這張圖片上的分類結果。其本質是將模型預測拉向當前最鄰近的類別(無論是否正確)。

直觀來看,Pseudo Labels 並未改變模型實際的預測類別,只是提高了模型在無監督數據上的自信度(例如,有 50% 可能性是蘋果的圖片被標註爲蘋果加入訓練集,模型經過優化後,判斷其爲蘋果的可能性進一步提高)。但是,這帶來了兩方面的好處:一方面,模型不僅能夠正確解釋有監督的數據,也能正確解釋部分無監督數據了。另一方面,隨着模型預測自信度的增強,模型會更少地給出模棱兩可的預測,增強模型的魯棒性(49% 是貓 51% 是狗的圖像,圖像稍加變化可能就會改變模型的分類結果;反之則更爲穩定)。也有些工作解釋說,強自信度的模型更加關注與個類有關的特徵而不是與一些類有關的混合特徵(強自信度的模型的分類邊界不會穿過邊際分佈的高密度區域)。
【網絡結構】小議如何跳出魔改網絡結構的火坑

熵正則化:熵衡量模型預測結果的自信度、作爲正則項迫使模型在無監督的數據上作出低熵預測
後續的工作中,又有些人提出,可以通過熵衡量模型預測結果的自信程度,從而通過最小化熵將模型預測拉向當前最鄰近的類別。熵可以理解爲系統的混亂程度(來自我的天文學老師),熵越高系統越混亂,事件的隨機性越強(如果 49% 的可能出現貓 51% 的可能出現狗,那麼系統中出現貓還是狗基本就不可控了);反之事件的隨機性越弱。因此,這些工作一般在有監督的數據上使用交叉熵作爲損失(正常的分類損失),在無監督的數據上使用熵作爲正則項,迫使模型在無監督的數據上作出低熵預測。這個正則項非常好實現:

import torch.nn as nn
import torch.nn.functional as F

class EntropyMinimizationLoss(nn.Module):
    def __init__(self, reduction='mean'):
        super(EntropyMinimizationLoss, self).__init__()
        self.reduction = reduction

    def forward(self, x):
        entropy = -1.0 * F.softmax(x, dim=1) * F.log_softmax(x, dim=1)

        if self.reduction == 'mean':
            return entropy.mean()
        if self.reduction == 'sum':
            return entropy.sum()
        return entropy

【網絡結構】小議如何跳出魔改網絡結構的火坑
Sharpen:通過銳化人爲地降低預測結果的熵
另一方面,也有些工作通過顯式的後處理,人爲地降低預測結果的熵。這種後處理方式在 MixMatch 中被稱爲 Sharpen(銳化)。銳化的過程可以用下式表達:
【網絡結構】小議如何跳出魔改網絡結構的火坑


其中,【網絡結構】小議如何跳出魔改網絡結構的火坑 爲模型預測樣本屬於某一類的概率,【網絡結構】小議如何跳出魔改網絡結構的火坑 爲溫度參數,一般爲 2。銳化的實現也很簡單,卻能有效地獲得低熵預測,增強模型對預測結果的自信度:

def sharpen(probabilities, T):
    if probabilities.ndim == 1:
        tempered = torch.pow(probabilities, 1 / T)
        tempered = (
            tempered
            / (torch.pow((1 - probabilities), 1 / T) + tempered)
        )
    else:
        tempered = torch.pow(probabilities, 1 / T)
        tempered = tempered / tempered.sum(dim=-1, keepdim=True)
    return tempered

注:這裏我特別把這兩部分代碼寫出來,是因爲在最近的 Kaggle 競賽中,(在蛙神的討論中)這些低熵方法(尤其是在 Ensemble 的過程中)取得了不俗的效果(儘管有時候容易被 shake down)。添加到現有模型也比較容易,各位同學取需。

[10] Entropy Minimization vs. Diversity Maximization for Domain Adaptation

[11] MixMatch: A Holistic Approach to Semi-Supervised Learning

  1. 指向擾動後的自洽(Π-model / Temporal ensembling/ Mean Teacher / UDA)

也有的工作提出,儘管我們無法得知準確的無監督數據的標籤,但是,針對同一個樣本做不同的輕微擾動,模型得出的預測結果應當是相同的。即增廣後圖像的預測應當與增廣前(或其他增廣方式產生的圖像)的預測結果自洽。這種思路顯著提高了模型在某個方面(取決於擾動的策略)的泛化能力。

現有工作一般使用無標籤數據,經過兩次不同增廣(augment)之後,再使用兩個模型(一般是同一模型結構,使用不同 dropout)分別對對應的變換後的樣本進行預測。因爲訓練樣本本質上都是同一樣本的輕微擾動,因此兩個模型輸出的概率分佈應該儘可能相同。一般使用 MSE 計算兩個概率分佈之間的相似度作爲損失,提升模型在不同擾動下的一致性。
【網絡結構】小議如何跳出魔改網絡結構的火坑

Π-model:樣本的不同增廣在經過不同 dropout 的模型後,輸出的概率分佈應該儘可能相同
在 Π-model 的基礎上,研究者們進一步提出了 Temporal ensembling。在 Π-model 中,我們需要在一迭代時間內產生的圖像的兩種增廣圖像,但實際上並沒有必要,因爲這樣一次迭代就需要推理兩次模型,而且由於 batch 有限,生成增廣的概率分佈偶然性較大。他們提出,使用時序組合模型,讓來自歷史迭代週期產生的預測結果與當前迭代週期產生的預測結果計算 MSE 進行比較。文中使用上一次迭代週期中的預測結果和當前週期的預測結果的加權和作爲歷史迭代週期產生的預測,有效地保留歷史了信息,消除了擾動並穩定了當前值。在此基礎上一些研究者又提出了 Mean Teacher 和 UDA 等模型,儘管圖像增廣的方式、分佈差異的度量、模型的 Ensemble 有所差異;但是其核心都是針對擾動的自洽損失。

[12] Temporal Ensembling for Semi-Supervised Learning

[13] Mean teachers are better role models: Weight-averaged consistency targets improve semi-supervised deep learning results

[14] Unsupervised Data Augmentation for Consistency Training

  1. 指向對抗中的自洽(Virtual Adversarial Training)

隨着自洽損失被人們廣泛使用,一些工作認識到半監督學習的精髓在於保證不同擾動下模型預測的一致性,而要學習這種一致性就要找到更好添加擾動的策略。人爲的數據增廣無法模擬各種複雜情況的輸入,那麼能否讓模型學習自適應地添加擾動呢?

虛擬對抗訓練(Virtual Adversarial Training)使用反向傳播和梯度上升來生成噪聲樣本作爲擾動後的數據(即,尋找一個與原始樣本十分接近的樣本,使得分類器對其給出與原是樣本一個非常不同的預測)。在得到噪聲樣本後,我們使用原數據上的模型預測結果作爲噪聲樣本的學習目標,訓練模型在對抗生成的樣本上仍能保持分類效果;與此同時訓練有標籤的訓練樣本進行正常的分類。這種思路常常被用於對抗樣本生成任務中。

這些工作一般使用分類損失的正梯度方向作爲擾動方向(在負梯度方向上模型的損失下降最快,導致正梯度方向上神經網絡的盲區較大),通過在原圖基礎上添加擾動,生成噪聲樣本 【網絡結構】小議如何跳出魔改網絡結構的火坑。我們希望通過在小範圍內優化噪聲樣本使得加入擾動後的預測與原預測的差異(KL 散度)【網絡結構】小議如何跳出魔改網絡結構的火坑 儘可能大。在獲得噪聲樣本後,再將噪聲樣本加入訓練集,訓練模型將噪聲樣本的類別預測爲原樣本所對應的類別。最終的目標函數可以表示爲:

【網絡結構】小議如何跳出魔改網絡結構的火坑
[15] Virtual Adversarial Training: A Regularization Method for Supervised and Semi-Supervised Learning

後記

本文提到的自監督和半監督方法都是較爲經典的算法,提供了最基礎的思路和研究方向。近年來的研究不斷在此基礎上交叉(多個基礎思想相結合)、變異(爲了解決某個任務痛點進行魔改),新的方法已經屢次刷新 sota,但仍萬變不離其宗。根據我個人的研究進展,在 self-supervise 和 semi-supervise 坑裏灌水仍有不小空間,但是由於系統化的理論比較少,我們在選擇灌水方向時往往需要遵循“拆解-組合”(沒錯,多一步拆解)的步驟。即,先將一篇文章中使用的 trick 拆解成不同小 trick,之後通過消融試驗等選擇有效的部分,和其他文章中的拆解出來的 trick 組合。至於有哪些前沿方法可以拆解,直接看 awesome list 和綜述就可以了~

此外,最近還有小夥伴反應由於內卷加劇,trick 撞車的現象嚴重:讀的文獻越來越多之後發現自己的某個 idea 其實就是某篇論文中某 trick 的變形。其實,在 CV 領域,有很多方法都被重新發明了 N 次。不要糾結實質是否相同,踏踏實實的做好試驗講好自己的故事就好了~如果你的解釋正好填補了某個評審的盲區,很可能就會中獎(畢竟現在湧出很多新人評審,他們大多都會比較保守地給 broadline,要是有個 weakly accpt 的話,rebuttal 翻盤的概率還是很高的)。

最後,祝大家逢投必中咯~

[16] Awesome self-supervised learning

[17] A survey on Semi-, Self- and Unsupervised Techniques in Image Classification

重磅!憶臻自然語言處理-學術微信交流羣已成立
可以掃描下方二維碼,小助手將會邀請您入羣交流,
注意:請大家添加時修改備註爲 [學校/公司 + 姓名 + 方向]
例如 —— 哈工大+張三+對話系統。
號主,微商請自覺繞道。謝謝!
【網絡結構】小議如何跳出魔改網絡結構的火坑
【網絡結構】小議如何跳出魔改網絡結構的火坑





推薦閱讀:

全連接的圖卷積網絡(GCN)和self-attention這些機制的區別與聯繫
圖卷積網絡(GCN)新手村完全指南
論文賞析[ACL18]基於Self-Attentive的成分句法分析
【網絡結構】小議如何跳出魔改網絡結構的火坑


發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章