In the mathematical theory of artificial neural networks, the universal approximation theorem states[1] that a feed-forward network with a single hidden layer containing a finite number of neurons can approximate continuous functions on compact subsets of , under mild assumptions on the activation function. The theorem thus states that simple neural networks can represent a wide variety of interesting functions when given appropriate parameters; however, it does not touch upon the algorithmic learnability of those parameters.
在維基百科上的解釋如下:
在人工神經網絡(ANN)的數學理論當中,假設激活函數足夠柔和的情況下,通用相似定理是指在神經元個數足夠的情況下和通過單層的前饋神經網絡能夠近似逼近任意一個在緊子集上的連續函數。
在這裏under mlid assumptions on the activation function裏面的mlid assumptions具體的含義不是很清楚。
此外,compact subsets of 表示在上的緊子集。
數學理論就是這個樣子,爲了解釋一個專業術語,要用兩個其他的專業術語,然後依次類推術語爆炸。爲了解釋通用近似定理。需要去了解
compact subsets
和 mlid assumptions
當然,我們大概瞭解一下通用近似定理表示的含義是什麼就可以了。孤豈欲卿治經爲數學博士邪?但當涉獵,能敲搬磚爾。
還好後面另外加了一句解釋:
通用近似定理表明,當給定通用的參數的時候,簡單的神經網絡可以表示各種各樣的有意思的函數。
通用近似定理告訴我們:採用簡單的神經網絡可以擬合任意連續函數(因爲不理解緊子集的意義,這裏我把緊子集去掉了。)
通用,表示神經網絡對於所有連續函數的通用性。
近似,表示神經網絡採用高度逼近的學習方法擬合得到連續函數的表示。
遺留問題:
通用近似定理爲什麼在理論上具有通用性?
竟然通用近似定理是在理論上具有通用性,那實際上肯定是不具備通用性的,爲什麼在實際情況中不具備通用性?
在人工神經網絡之上所做出的其他的優化所解決的問題是什麼?比如卷積神經網絡,再比如attention。