NIPS2020 | 基於核的漸進式蒸餾的加法神經網絡

原創

2021-02-05 21:21

作者：竇中鑫（中國傳媒大學）
編輯：王萌

論文

Kernel Based Progressive Distillation for Adder Neural Networks：基於核的漸進式蒸餾的加法神經網絡

一.簡介

加法器神經網絡（ANN）提供了一種低能耗深層神經網絡的新方法。但是，當用加法替換所有卷積時，精度會下降。作者認爲這主要是由於使用L1範數前向傳播的ANN優化比較困難帶來的問題。在訓練原始ANN時，反向傳播的梯度使用的是L2範數來近似，因此梯度方向是不準確的。在本文中，作者提出了一種新的方法，通過基於核的漸進式知識蒸餾（PKKD）方法，進一步提高了人工神經網絡的性能，而又不增加可訓練的參數。

方法爲：具有相同架構的卷積神經網絡（CNN）被初始化和訓練爲T-net，ANN和CNN的特徵和權重將被轉換到一個新的空間，即使用基於核的方法在更高維的空間中進行處理，消除它們的分佈差異，應用知識蒸餾的方法進行學習。最後，根據ground-truth和T-net的信息逐步學習所需的信息。

二.問題解決

作者想用具有相同架構和可學習參數數量的卷積網絡來幫助訓練S-net。此時困難就出現了，作者分別分析ANN和CNN中的權重分佈，發現ANN中的權重服從拉普拉斯分佈，而CNN中權重參數通常是高斯分佈，因此想要直接匹配兩者的特徵信息是十分的困難的，正是基於此，作者開發了一種基於核的方法來將這兩種神經網絡的特徵和權重映射到同一個空間去尋求一致性。

CNN使用高斯核，ANN使用拉普拉斯核，來轉換特徵和權重到一個新的空間，然後再利用知識蒸餾的方法將有用的T-net信息傳遞到S-net，此外，作者採用漸進式蒸餾方法來指導ANN的訓練，進一步提升精度。

2.1問題

提出

首先我們來回顧CNN與ANN前向傳播操作：

但是相同結構的CNN和ANN還是有比較大的精度差別，本文就是爲了解決這個問題。

2.2初步解決方案

作者想通過知識蒸餾的方法來提升ANN的精度：

我們來回顧一下KD loss function：

也就是交叉熵損失，也就是S-net網絡的輸出，也就是T-net的輸出。

傳統的KD loss使用軟標籤融合ground-truth和T-net的輸出，因此有：

（有關知識蒸餾的具體細節可以在網上查閱）作者提到，由於CNN和ANN使用相同的神經網絡結構，因此更容易學到一些每層間的知識。從此處開始探索如何應用知識蒸餾的方法進行學習。

2.3具體分析

兩者前向傳播函數大不相同，而ANN輸出分佈函數和CNN輸出分佈函數也有很大的不同：

CNN:

ANN:

通過比較以上兩個輸出分佈函數可以看出，除非巧妙設計輸入的分佈，否則ANN與CNN的分佈幾乎不可能相同。因此很難通過MSEloss來匹配輸出特徵。因此不能套用原來的蒸餾方法。

2.4問題解決——用核方法來解決這個問題

首先我們先來看一下本文中用到的兩個核函數：高斯核：

拉普拉斯核：

基於以上兩個函數更改前後輸出特徵對比：

CNN:

ANN:

這便將輸入和權重映射到更高維度的空間。在新的空間輸出特徵圖。我們可以看到此處新的公式高斯核的形式有所改變，但是效果是不變的，作者在原文中給出了證明:

除了使用核函數，作者還提到進一步用線性變換來匹配新輸出的兩個分佈。總結就是選取合適的核函數的參數——平滑輸出分佈，並使用線性變換，減小輸出特徵分佈差異，更好的匹配兩者的特徵。因此，作者將用於計算KD loss的中間層輸出定義爲：

CNN:

ANN:

2.5漸進式學習

總體算法流程如下：

作者首先分析了目前某些情況下，知識蒸餾不能很好發揮作用的原因。

1.T-net和S-net的結構差異較大

2.T-net和S-net的訓練階段差別較大

作者經過分析，認爲問題主要出現在第二個原因上

因此設計此處具體步驟爲：給定一批輸入數據，首先用交叉熵損失更新CNN參數，之後ANN使用當前的CNN權重通過KD loss進行學習：

b爲當前的步數。更新ANN的參數，在進行反向傳播時，KD損失僅通過ANN進行反向傳播，CNN的學習不受干擾。

三.實驗結果分析

實驗設置：400epochs，batch size=256，cosine learning rate decay，

3.1基於MNIST數據集將分類結果可視化

可以看出PKKD ANN兼具了ANN與CNN的特性，既能將不同的類別按照不同的角度分開，又可以把不同的類別分成不同的聚類中心。

3.2不同實驗設置對比

經過實驗對比，證明漸進式的學習CNN，以及核方法的有效性。

3.3作者在CIFAR-10,CIFAR-100,ImageNet上分別進行了實驗

CIFAR-10,CIFAR-100:

下面是ResNet-20，ANN-20,PKKD ANN-20的訓練和測試epoch與accuracy曲線圖：

可以看出PKKD ANN效果完全超過了CNN，尤其可以看出PKKD ANN訓練時精度最低，但是測試時的精度卻是最高的，這驗證了KD方法有助於防止S-net的過擬合。採用不同的參數設置的時候的實驗效果：

ImageNet:

在ImageNet的數據集上，效果也是非常的好，我們可以看出採用ResNet-50的結構的時候PKKD ANN的效果是非常不錯的。但是在ResNet-18的網絡中PKKD ANN效果卻要差於CNN，其原因還有待考究。

四.總結

問題：ANN與CNN精度有差距

提出解決：用知識蒸餾方法解決

問題：CNN與ANN輸出特徵分佈差別較大

提出解決：用核函數的方法映射到高維空間，並用一些tricks縮小CNN與ANN輸出特徵分佈差異

提高：漸進式蒸餾方法同時更新CNN和ANN參數提升精度

發表評論

所有評論

還沒有人評論，想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.

相關文章

從零開始學習大模型

隨着人工智能技術的快速發展，大模型已成爲許多領域的熱門話題。然而，大模型的創建並不是一件容易的事情。在本文中，我們將從零開始學習如何創建一個大模型，幫助讀者掌握大模型的創建過程。一、數據收集創建大模型的首要任務是收集數據。數據是大模型的

2024-04-16 11:29:26

Stable Diffusion中的embedding

Stable Diffusion中的embedding 嵌入，也稱爲文本反轉，是在 Stable Diffusion 中控制圖像樣式的另一種方法。在這篇文章中，我們將學習什麼是嵌入，在哪裏可以找到它們，以及如何使用它們。什麼是嵌入embe

2024-04-25 21:31:13

京東廣告研發 —— 京東推薦廣告排序機制演化

1、序言：廣告排序機制的前世今生 1.1、簡介：廣告排序機制在線廣告是國內外各大互聯網公司的重要收入來源之一，而在線廣告與傳統廣告最大的區別就在於其超大規模的實時競價環境：數以萬計的廣告主在一天內可以參與億級別的流量競拍。在這複雜的實

2024-04-24 23:17:14

03-爲啥大模型LLM還沒能完全替代你？

1 不具備記憶能力的它是零狀態的，我們平常在使用一些大模型產品，尤其在使用他們的API的時候，我們會發現那你和它對話，尤其是多輪對話的時候，經過一些輪次後，這些記憶就消失了，因爲它也記不住那麼多。 2 上下文窗口的限制大模型對其inpu

2024-04-23 01:07:00

輕鬆復現一張AI圖片

輕鬆復現一張AI圖片現在有一個非常漂亮的AI圖片，你是不是想知道他是怎麼生成的？今天我會交給大家三種方法，學會了，什麼圖都可以手到擒來了。需要的軟件在本教程中，我們將使用AUTOMATIC1111 stable diffusio

2024-04-22 21:30:45

01-大語言模型發展

AI大模型的相關的一些基礎知識，一些背景和基礎知識。多模型強應用AI 2.0時代應用開發者的機會。 0 大綱 AI產業的拆解和常見名詞應用級開發者，在目前這樣一個大背景下的一個職業上面的一些機會實戰部分的，做這個agent，即所謂智

2024-04-22 01:12:50

AI從入門到入門之手寫數字識別模型java方式Dense全連接神經網絡實現

前言：授人以魚不如授人以漁.先學會用，在學原理，在學創造，可能一輩子用不到這種能力，但是不能不具備這種能力。這篇文章主要是介紹算法入門Helloword之手寫圖片識別模型java中如何實現以及部分解釋。目前大家對於人工智能-機器學習-神經網

2024-04-19 23:17:21

深入解析大模型NLP LLaMa

在人工智能和自然語言處理（NLP）領域，LLaMa（Language-Model-driven Learning, aMplification and aDAptation）流程已經成爲處理大規模模型訓練的關鍵技術。它基於語言模型的學習、增

2024-04-18 11:29:54

文檔圖像大模型

隨着信息技術的快速發展，文檔處理已經成爲日常生活和工作中不可或缺的一部分。傳統的文檔處理方法往往需要人工參與，效率低下且易出錯。近年來，隨着深度學習技術的突破，文檔圖像大模型在智能文檔處理領域嶄露頭角，爲提升文檔處理性能提供了新的解決方案。

2024-04-18 11:29:52

倒計時4天！百度Create AI開發者大會“大模型與深度學習技術”論壇亮點搶鮮看！

作爲人工智能的核心基礎技術，深度學習具有很強的通用性，大模型技術在深度學習的基礎上，通過構建更加龐大神經網絡模型和應用transformer等更加領先的算法，使模型的處理能力產生質的飛躍。飛槳（PaddlePaddle）以百度多年的深度學習

2024-04-12 21:33:07

深度解析大模型推理框架：原理、應用與實踐

在當今數據驅動的時代，大模型推理框架已經成爲人工智能領域的重要支柱。本文將通過簡明扼要、清晰易懂的方式，帶領讀者深入瞭解大模型推理框架的原理、應用領域和實踐經驗，幫助讀者更好地掌握這一技術，並在實際工作中發揮其價值。一、大模型推理框架簡介

2024-04-11 23:28:49

京東廣告研發——效率爲王：廣告統一檢索平臺實踐

1、系統概述實踐證明，將互聯網流量變現的在線廣告是互聯網最成功的商業模式，而電商場景是在線廣告的核心場景。京東服務中國數億的用戶和大量的商家，商品池海量。平臺在兼顧用戶體驗、平臺、廣告主收益的前提推送商品具有挑戰性。京東廣告檢索平臺

2024-04-25 23:17:47

美團外賣基於GPU的向量檢索系統實踐

到家搜索業務具有數據量大、過濾比高等特點，爲了在保證高召回率的同時進一步提高檢索性能，美團到家搜索技術團隊與基礎研發機器學習平臺團隊基於GPU實現了支持向量+標量混合檢索的通用檢索系統，召回率與檢索性能均有較大提升。本文將介紹我們在GPU

2024-04-12 21:15:18

探索時間序列大模型：TimeGPT的魅力與實踐

在數據科學的各個領域中，時間序列分析一直扮演着重要角色。無論是預測股票價格、氣候變化，還是分析醫療數據，時間序列模型都發揮着不可或缺的作用。然而，傳統的時間序列分析方法在處理複雜數據時常常面臨諸多挑戰，如數據稀疏性、非線性關係等。爲了應對這

2024-04-22 11:29:17

搞定了 6 種分佈式ID，分庫分表哪個適合做主鍵？

大家好，我是小富～本文是《ShardingSphere5.x分庫分表原理與實戰》系列的第七篇，目前系列的前幾篇製作成了PDF，需要的可以在文末獲取下載方式，持續更新中。今天咱們繼續一起來探究下，分佈式ID在分庫分表中起到的作用以及如何使用

2024-04-18 22:05:52

24小時熱門文章

最新文章

最新評論文章