NIPS2020 | 基于核的渐进式蒸馏的加法神经网络

原創

2021-02-05 21:21

作者：窦中鑫（中国传媒大学）
编辑：王萌

论文

Kernel Based Progressive Distillation for Adder Neural Networks：基于核的渐进式蒸馏的加法神经网络

一.简介

加法器神经网络（ANN）提供了一种低能耗深层神经网络的新方法。但是，当用加法替换所有卷积时，精度会下降。作者认为这主要是由于使用L1范数前向传播的ANN优化比较困难带来的问题。在训练原始ANN时，反向传播的梯度使用的是L2范数来近似，因此梯度方向是不准确的。在本文中，作者提出了一种新的方法，通过基于核的渐进式知识蒸馏（PKKD）方法，进一步提高了人工神经网络的性能，而又不增加可训练的参数。

方法为：具有相同架构的卷积神经网络（CNN）被初始化和训练为T-net，ANN和CNN的特征和权重将被转换到一个新的空间，即使用基于核的方法在更高维的空间中进行处理，消除它们的分布差异，应用知识蒸馏的方法进行学习。最后，根据ground-truth和T-net的信息逐步学习所需的信息。

二.问题解决

作者想用具有相同架构和可学习参数数量的卷积网络来帮助训练S-net。此时困难就出现了，作者分别分析ANN和CNN中的权重分布，发现ANN中的权重服从拉普拉斯分布，而CNN中权重参数通常是高斯分布，因此想要直接匹配两者的特征信息是十分的困难的，正是基于此，作者开发了一种基于核的方法来将这两种神经网络的特征和权重映射到同一个空间去寻求一致性。

CNN使用高斯核，ANN使用拉普拉斯核，来转换特征和权重到一个新的空间，然后再利用知识蒸馏的方法将有用的T-net信息传递到S-net，此外，作者采用渐进式蒸馏方法来指导ANN的训练，进一步提升精度。

2.1问题

提出

首先我们来回顾CNN与ANN前向传播操作：

但是相同结构的CNN和ANN还是有比较大的精度差别，本文就是为了解决这个问题。

2.2初步解决方案

作者想通过知识蒸馏的方法来提升ANN的精度：

我们来回顾一下KD loss function：

也就是交叉熵损失，也就是S-net网络的输出，也就是T-net的输出。

传统的KD loss使用软标签融合ground-truth和T-net的输出，因此有：

（有关知识蒸馏的具体细节可以在网上查阅）作者提到，由于CNN和ANN使用相同的神经网络结构，因此更容易学到一些每层间的知识。从此处开始探索如何应用知识蒸馏的方法进行学习。

2.3具体分析

两者前向传播函数大不相同，而ANN输出分布函数和CNN输出分布函数也有很大的不同：

CNN:

ANN:

通过比较以上两个输出分布函数可以看出，除非巧妙设计输入的分布，否则ANN与CNN的分布几乎不可能相同。因此很难通过MSEloss来匹配输出特征。因此不能套用原来的蒸馏方法。

2.4问题解决——用核方法来解决这个问题

首先我们先来看一下本文中用到的两个核函数：高斯核：

拉普拉斯核：

基于以上两个函数更改前后输出特征对比：

CNN:

ANN:

这便将输入和权重映射到更高维度的空间。在新的空间输出特征图。我们可以看到此处新的公式高斯核的形式有所改变，但是效果是不变的，作者在原文中给出了证明:

除了使用核函数，作者还提到进一步用线性变换来匹配新输出的两个分布。总结就是选取合适的核函数的参数——平滑输出分布，并使用线性变换，减小输出特征分布差异，更好的匹配两者的特征。因此，作者将用于计算KD loss的中间层输出定义为：

CNN:

ANN:

2.5渐进式学习

总体算法流程如下：

作者首先分析了目前某些情况下，知识蒸馏不能很好发挥作用的原因。

1.T-net和S-net的结构差异较大

2.T-net和S-net的训练阶段差别较大

作者经过分析，认为问题主要出现在第二个原因上

因此设计此处具体步骤为：给定一批输入数据，首先用交叉熵损失更新CNN参数，之后ANN使用当前的CNN权重通过KD loss进行学习：

b为当前的步数。更新ANN的参数，在进行反向传播时，KD损失仅通过ANN进行反向传播，CNN的学习不受干扰。

三.实验结果分析

实验设置：400epochs，batch size=256，cosine learning rate decay，

3.1基于MNIST数据集将分类结果可视化

可以看出PKKD ANN兼具了ANN与CNN的特性，既能将不同的类别按照不同的角度分开，又可以把不同的类别分成不同的聚类中心。

3.2不同实验设置对比

经过实验对比，证明渐进式的学习CNN，以及核方法的有效性。

3.3作者在CIFAR-10,CIFAR-100,ImageNet上分别进行了实验

CIFAR-10,CIFAR-100:

下面是ResNet-20，ANN-20,PKKD ANN-20的训练和测试epoch与accuracy曲线图：

可以看出PKKD ANN效果完全超过了CNN，尤其可以看出PKKD ANN训练时精度最低，但是测试时的精度却是最高的，这验证了KD方法有助于防止S-net的过拟合。采用不同的参数设置的时候的实验效果：

ImageNet:

在ImageNet的数据集上，效果也是非常的好，我们可以看出采用ResNet-50的结构的时候PKKD ANN的效果是非常不错的。但是在ResNet-18的网络中PKKD ANN效果却要差于CNN，其原因还有待考究。

四.总结

问题：ANN与CNN精度有差距

提出解决：用知识蒸馏方法解决

问题：CNN与ANN输出特征分布差别较大

提出解决：用核函数的方法映射到高维空间，并用一些tricks缩小CNN与ANN输出特征分布差异

提高：渐进式蒸馏方法同时更新CNN和ANN参数提升精度

發表評論

所有評論

還沒有人評論，想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.

相關文章

O2OA(翱途)开发平台为待办创建配置邮件通知

O2OA(翱途)開發平臺[下稱O2OA開發平臺或者O2OA]的消息機制允許開發者通過配置實現郵件通知。本篇主要闡述如何實現待辦消息的郵件通知。一、先決條件： 1、O2Server服務器正常運行，系統安裝部署請參考

2024-05-09 23:10:17

理论+实践，带你了解分布式训练

本文分享自華爲雲社區《大模型LLM之分佈式訓練》，作者：碼上開花_Lancer。隨着語言模型參數量和所需訓練數據量的急速增長，單個機器上有限的資源已無法滿足大語言模型訓練的要求。需要設計分佈式訓練（Distributed Trainin

2024-05-08 22:38:41

打开神经网络的黑箱子

卷積神經網絡每個卷積核提取不同的特徵。每個卷積覈對輸入進行卷積，生成一個feature map，這個feature map即體現了該卷積核從輸入中提取的特徵，不同的feature map顯示了圖像中不同的特徵。淺層卷積核提取：邊緣、顏

2024-05-06 00:41:39

Stable Diffusion中的embedding

Stable Diffusion中的embedding 嵌入，也稱爲文本反轉，是在 Stable Diffusion 中控制圖像樣式的另一種方法。在這篇文章中，我們將學習什麼是嵌入，在哪裏可以找到它們，以及如何使用它們。什麼是嵌入embe

2024-04-25 21:31:13

京东广告研发 —— 京东推荐广告排序机制演化

1、序言：廣告排序機制的前世今生 1.1、簡介：廣告排序機制在線廣告是國內外各大互聯網公司的重要收入來源之一，而在線廣告與傳統廣告最大的區別就在於其超大規模的實時競價環境：數以萬計的廣告主在一天內可以參與億級別的流量競拍。在這複雜的實

2024-04-24 23:17:14

03-为啥大模型LLM还没能完全替代你？

1 不具備記憶能力的它是零狀態的，我們平常在使用一些大模型產品，尤其在使用他們的API的時候，我們會發現那你和它對話，尤其是多輪對話的時候，經過一些輪次後，這些記憶就消失了，因爲它也記不住那麼多。 2 上下文窗口的限制大模型對其inpu

2024-04-23 01:07:00

轻松复现一张AI图片

輕鬆復現一張AI圖片現在有一個非常漂亮的AI圖片，你是不是想知道他是怎麼生成的？今天我會交給大家三種方法，學會了，什麼圖都可以手到擒來了。需要的軟件在本教程中，我們將使用AUTOMATIC1111 stable diffusio

2024-04-22 21:30:45

01-大语言模型发展

AI大模型的相關的一些基礎知識，一些背景和基礎知識。多模型強應用AI 2.0時代應用開發者的機會。 0 大綱 AI產業的拆解和常見名詞應用級開發者，在目前這樣一個大背景下的一個職業上面的一些機會實戰部分的，做這個agent，即所謂智

2024-04-22 01:12:50

AI从入门到入门之手写数字识别模型java方式Dense全连接神经网络实现

前言：授人以魚不如授人以漁.先學會用，在學原理，在學創造，可能一輩子用不到這種能力，但是不能不具備這種能力。這篇文章主要是介紹算法入門Helloword之手寫圖片識別模型java中如何實現以及部分解釋。目前大家對於人工智能-機器學習-神經網

2024-04-19 23:17:21

深入解析大模型NLP LLaMa

在人工智能和自然語言處理（NLP）領域，LLaMa（Language-Model-driven Learning, aMplification and aDAptation）流程已經成爲處理大規模模型訓練的關鍵技術。它基於語言模型的學習、增

2024-04-18 11:29:54

文档图像大模型

隨着信息技術的快速發展，文檔處理已經成爲日常生活和工作中不可或缺的一部分。傳統的文檔處理方法往往需要人工參與，效率低下且易出錯。近年來，隨着深度學習技術的突破，文檔圖像大模型在智能文檔處理領域嶄露頭角，爲提升文檔處理性能提供了新的解決方案。

2024-04-18 11:29:52

京东广告研发——效率为王：广告统一检索平台实践

1、系統概述實踐證明，將互聯網流量變現的在線廣告是互聯網最成功的商業模式，而電商場景是在線廣告的核心場景。京東服務中國數億的用戶和大量的商家，商品池海量。平臺在兼顧用戶體驗、平臺、廣告主收益的前提推送商品具有挑戰性。京東廣告檢索平臺

2024-04-25 23:17:47

LoRA微调语言大模型的实用技巧与实践

隨着人工智能技術的不斷髮展，大型語言模型在各個領域的應用越來越廣泛。然而，大型語言模型的訓練成本高昂，且難以適應不同領域的具體需求。爲了解決這個問題，LoRA微調技術應運而生。本文將介紹LoRA微調語言大模型的實用技巧，幫助讀者更好地應用這

2024-05-09 12:48:45

探索时间序列大模型：TimeGPT的魅力与实践

在數據科學的各個領域中，時間序列分析一直扮演着重要角色。無論是預測股票價格、氣候變化，還是分析醫療數據，時間序列模型都發揮着不可或缺的作用。然而，傳統的時間序列分析方法在處理複雜數據時常常面臨諸多挑戰，如數據稀疏性、非線性關係等。爲了應對這

2024-04-22 11:29:17

搞定了 6 种分布式ID，分库分表哪个适合做主键？

大家好，我是小富～本文是《ShardingSphere5.x分庫分表原理與實戰》系列的第七篇，目前系列的前幾篇製作成了PDF，需要的可以在文末獲取下載方式，持續更新中。今天咱們繼續一起來探究下，分佈式ID在分庫分表中起到的作用以及如何使用

2024-04-18 22:05:52

24小時熱門文章

最新文章

最新評論文章