号称能打败MLP的KAN到底行不行？数学核心原理全面解析

原創

deephub

2024-05-08 13:04

前几天火爆的Kolmogorov-Arnold Networks是具有开创性，目前整个人工智能社区都只关注一件事LLM。我们很少看到有挑战人工智能基本原理的论文了，但这篇论文给了我们新的方向。

mlp或多层感知位于AI架构的最底部，几乎是每个深度学习架构的一部分。而KAN直接挑战了这一基础，并且也挑战了这些模型的黑箱性质。

也许你看到了很多关于KAN的报告，但是里面只是简单的描述性介绍，对于他的运行原理还是不清楚，所以我们这篇文章将涉及大量的数学知识，主要介绍KAN背后的数学原理。

KAN

Kolmogorov-Arnold Networks引入了一种基于Kolmogorov-Arnold表示定理的新型神经网络架构，为传统的多层感知器(mlp)提供了一种有前途的替代方案。

mlp在节点(“神经元”)上有固定的激活函数，而kan在边缘(“权重”)上有可学习的激活函数。kan根本没有线性权重，每个权重参数都被参数化为样条的单变量函数。这个看似简单的改变使得KANs在准确性和可解释性方面优于mlp。KANs是mlp的有希望的替代品，为进一步改进当今严重依赖mlp的深度学习模型提供了机会。

上面论文的原文，根据论文在数据拟合和PDE求解方面，更小的kan与更大的mlp相当或更好。所以kan可能比mlp拥有更快的神经缩放定律。并且KANs可以直观地可视化，大大提高了可解释性。

论文围绕函数逼近的Kolmogorov-Arnold表示定理的性质展开，这是这篇论文的全部前提。

表示定理基础:函数被分解成更简单的函数，然后使用神经网络进行近似。

平滑性和连续性:目标是确保原始多元函数的平滑性有效地转化为神经网络近似。

空间填充曲线:函数跨维度的属性，特别是关注在近似过程中如何保持连续性和其他函数属性或转换。

https://avoid.overfit.cn/post/6ee2307e614b462f9c9aac26ef12252d

發表評論

所有評論

還沒有人評論，想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.

号称能打败MLP的KAN到底行不行？数学核心原理全面解析

KAN

12款高效开源Wiki系统推荐，打造团队知识管理利器

dotnet 基于 DirectML 控制台运行 Phi-3 模型

常用的 Git 指令

sm4加密工具类

通過元學習優化增益模型的性能：基礎到高級應用總結

使用PyTorch Profiler進行模型性能分析，改善並加速PyTorch訓練

Tiny Time Mixers (TTM)輕量級時間序列基礎模型：無需注意力機制，並且在零樣本預測方面表現出色

如何應對缺失值帶來的分佈變化？探索填充缺失值的最佳插補算法

數據並非都是正態分佈：三種常見的統計分佈及其應用

Mac下配置sublime實現LaTeX

https://yachay.unat.edu.pe/blog/index.php?comment_area=format_blog&comment_component=blog&comment_co

linux以太網驅動總結