動手學深度學習-17 凸優化

原創

2020-06-17 14:35

優化與深度學習

優化與估計

儘管優化方法可以最小化深度學習中的損失函數值，但本質上優化方法達到的目標與深度學習的目標並不相同。

優化方法目標：訓練集損失函數值
深度學習目標：測試集損失函數值（泛化性）

%matplotlib inline
import sys
sys.path.append('/home/kesci/input')
import d2lzh1981 as d2l
from mpl_toolkits import mplot3d # 三維畫圖
import numpy as np
from matplotlib import pyplot as plt#導入matplotlib

def f(x): return x * np.cos(np.pi * x)
def g(x): return f(x) + 0.2 * np.cos(5 * np.pi * x)

def set_figsize(figsize=(3.5, 2.5)):
    use_svg_display()
    # 設置圖的尺寸
    plt.rcParams['figure.figsize'] = figsize


set_figsize((5, 3))
x = np.arange(0.5, 1.5, 0.01)
fig_f, = plt.plot(x, f(x),label="train error")
fig_g, = plt.plot(x, g(x),'--', c='purple', label="test error")
fig_f.axes.annotate('empirical risk', (1.0, -1.2), (0.5, -1.1),arrowprops=dict(arrowstyle='->'))
fig_g.axes.annotate('expected risk', (1.1, -1.05), (0.95, -0.5),arrowprops=dict(arrowstyle='->'))
plt.xlabel('x')
plt.ylabel('risk')
plt.legend(loc="upper right")

優化在深度學習中的挑戰

局部最小值
鞍點
梯度消失

局部最小值

f(x)=xcosπx

def f(x):
    return x * np.cos(np.pi * x)

set_figsize((4.5, 2.5))
x = np.arange(-1.0, 2.0, 0.1)
fig,  = plt.plot(x, f(x))
fig.axes.annotate('local minimum', xy=(-0.3, -0.25), xytext=(-0.77, -1.0),
                  arrowprops=dict(arrowstyle='->'))
fig.axes.annotate('global minimum', xy=(1.1, -0.95), xytext=(0.6, 0.8),
                  arrowprops=dict(arrowstyle='->'))
plt.xlabel('x')
plt.ylabel('f(x)');

鞍點

x = np.arange(-2.0, 2.0, 0.1)
fig, = plt.plot(x, x**3)
fig.axes.annotate('saddle point', xy=(0, -0.2), xytext=(-0.52, -5.0),
                  arrowprops=dict(arrowstyle='->'))
plt.xlabel('x')
plt.ylabel('f(x)');

海森矩陣

x, y = np.mgrid[-1: 1: 31j, -1: 1: 31j]
z = x**2 - y**2

set_figsize((6, 4))
ax = plt.figure().add_subplot(111, projection='3d')
ax.plot_wireframe(x, y, z, **{'rstride': 2, 'cstride': 2})
ax.plot([0], [0], [0], 'ro', markersize=10)
ticks = [-1,  0, 1]
plt.xticks(ticks)
plt.yticks(ticks)
ax.set_zticks(ticks)
plt.xlabel('x')
plt.ylabel('y');

鞍點，從一個角度上看是極大值，從另外一個角度上看是極小值

梯度消失

x = np.arange(-2.0, 5.0, 0.01)
fig, = plt.plot(x, np.tanh(x))
plt.xlabel('x')
plt.ylabel('f(x)')
fig.axes.annotate('vanishing gradient', (4, 1), (2, 0.0) ,arrowprops=dict(arrowstyle='->'))

凸性（Convexity）

基礎

集合

上面的圖的含義是：

第一行的最左邊不是凸集合，右邊兩個是凸集合

第二行的意思是凸集合的交集是凸集合

第三行的意思是兩個凸集合並集不一定是凸集合

from IPython import display
def f(x):
    return 0.5 * x**2  # Convex

def g(x):
    return np.cos(np.pi * x)  # Nonconvex

def h(x):
    return np.exp(0.5 * x)  # Convex

x, segment = np.arange(-2, 2, 0.01), np.array([-1.5, 1])

def use_svg_display():
    """Use svg format to display plot in jupyter"""
    display.set_matplotlib_formats('svg')

use_svg_display()

_, axes = plt.subplots(1, 3, figsize=(9, 3))

for ax, func in zip(axes, [f, g, h]):
    ax.plot(x, func(x))
    ax.plot(segment, func(segment),'--', color="purple")
    # d2l.plt.plot([x, segment], [func(x), func(segment)], axes=ax)

上面三個圖指的是最左邊和最右邊的是凸函數。中間的不是凸函數

Jensen 不等式

口訣：函數值的期望大於期望的函數值

凸函數的性質

無局部極小值
與凸集的關係
二階條件

無局部最小值

利用反證法來證明的，右邊的紅框表示的是x的領域所對應的值

x, y = np.meshgrid(np.linspace(-1, 1, 101), np.linspace(-1, 1, 101),
                   indexing='ij')

z = x**2 + 0.5 * np.cos(2 * np.pi * y)

# Plot the 3D surface
set_figsize((6, 4))
ax = plt.figure().add_subplot(111, projection='3d')
ax.plot_wireframe(x, y, z, **{'rstride': 10, 'cstride': 10})
ax.contour(x, y, z, offset=-1)
ax.set_zlim(-1, 1.5)

# Adjust labels
for func in [d2l.plt.xticks, d2l.plt.yticks, ax.set_zticks]:
    func([-1, 0, 1])

def f(x):
    return 0.5 * x**2

x = np.arange(-2, 2, 0.01)
axb, ab = np.array([-1.5, -0.5, 1]), np.array([-1.5, 1])

d2l.set_figsize((3.5, 2.5))
fig_x, = d2l.plt.plot(x, f(x))
fig_axb, = d2l.plt.plot(axb, f(axb), '-.',color="purple")
fig_ab, = d2l.plt.plot(ab, f(ab),'g-.')

fig_x.axes.annotate('a', (-1.5, f(-1.5)), (-1.5, 1.5),arrowprops=dict(arrowstyle='->'))
fig_x.axes.annotate('b', (1, f(1)), (1, 1.5),arrowprops=dict(arrowstyle='->'))
fig_x.axes.annotate('x', (-0.5, f(-0.5)), (-1.5, f(-0.5)),arrowprops=dict(arrowstyle='->'))

論文:Boyd, S., & Vandenberghe, L. (2004). Convex Optimization. Cambridge, England: Cambridge University Press

發表評論

所有評論

還沒有人評論，想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.

動手學深度學習-17 凸優化

優化與深度學習

優化與估計

優化在深度學習中的挑戰

局部最小值

f(x)=xcosπx

鞍點

海森矩陣

梯度消失

凸性（Convexity）

基礎

集合

Jensen 不等式

凸函數的性質

linux安裝cuda和cudnn

模擬手機設備：使用 Playwright 實現移動端自動化測試

Mellanox網卡開啓SR-IOV

測試人員都是畫畫大神，讓我看看誰還不會用代碼圖？

Object.values()對象遍歷

我拍了拍Redis，被移出了羣聊···

網絡現代化通向雲原生應用的高速公路

面試官：說說你對序列化的理解

我宣佈，這是我找到的史上AI最全論文體系！

動手學深度學習-12 循環神經網絡基礎

動手學深度學習-21

Task 03: 數據的特徵工程

動手學深度學習-17 凸優化

Task04 建模調參

https://yachay.unat.edu.pe/blog/index.php?comment_area=format_blog&comment_component=blog&comment_co

linux以太網驅動總結

動手學深度學習-17 凸優化

優化與深度學習

優化與估計

優化在深度學習中的挑戰

局部最小值

f(x)=xcosπx

鞍點

海森矩陣

梯度消失

凸性 （Convexity）

基礎

集合

Jensen 不等式

凸函數的性質

凸性（Convexity）