學習筆記TF055:TensorFlow神經網絡簡單實現一元二次函數

TensorFlow運行方式。加載數據、定義超參數,構建網絡,訓練模型,評估模型、預測。

構造一個滿足一元二次函數y=ax^2+b原始數據,構建最簡單神經網絡,包含輸入層、隱藏層、輸出層。TensorFlow學習隱藏層、輸出層weights、biases。觀察訓練次數增加,損失值變化。

生成、加載數據。方程y=x^2-0.5。構造滿足方程的x、y。加入不滿足方程噪聲點。

import tensor flow as tf
import bumpy as np
# 構造滿中一元二次方程的函數
x_data = np.linspace(-1,1,300)[:,np.newaxis] # 構建起300個點,分佈在-1到1區間,用np生成等差數列,300個點的一維數組轉換爲300x1的二維數組
noise = np.random.normal(0, 0.05, x_data.shape) # 加入噪聲點,與x_data維度一致,擬合均值0、方差0.05正態分佈
y_data = np.square(x_data) - 0.5 + noise # y = x^2 - 0.5 + 噪聲

定義x、y佔位符作輸入神經網絡變量。

xs = tf.placeholder(tf.float32, [None, 1])
ys = tf.placeholder(tf.float32, [None, 1])

構建網絡模型。

構建一個隱藏層,一個輸出層。輸入參數4個變量,輸入數據、輸入數據維度、輸出數據維度、激活函數。每層向量化處理(y = weights*x +biases),激活函數非線性化處理,輸出數據。定義隱藏層、輸出層:

def add_layer(inputs, in_size, out_size, activation_function=None):
    # 構建權重:in_size*out_size 大小的矩陣
    weights = tf.Variable(tf.random_normal([in_size, out_size]))
    # 構建偏置:1 * out_size矩陣
    biases = tf.Variable(tf.zeros([1, out_size]) + 0.1)
    # 矩陣相乘
    Wx_plus_b = tf.matmul(inputs, weights) + biases
    if activation_function is None:
        outputs = Wx_plus_b
    else:
        outputs = activation_function(Wx_plus_b)
return outputs #得到輸出數據
# 構建隱藏層,假設隱藏層有10個神經元
h1 = add_layer(xs, 1, 20, activation_function=tf.nn.relu)
# 構建輸出層,假設輸出層和輸入層一樣,有1個神經元
prediction = add_layer(h1, 20, 1, activation_function=None)

構建損失函數,計算輸出層預測值、真實值間誤差。二者差的平方求和再取平均。梯度下降法,以0.1效率最小化損失。

loss = tf.reduce_mean(tf.reduce_sum(tf.square(ys - prediction), reduction_indices=[1]))
train_step = tf.train.GradientDescentOptimizer(0.1).minimize(loss)

訓練模型。訓練1000次,每50次輸出訓練損失值。

init = tf.global_variables_initializer() # 初始化所有變量
sess = tf.Session()
sess.run(init)

for i in range(1000): # 訓練1000次
    sess.run(train_step, feed_dict = (xs: x_data, ys: y_data)
    if i % 50 == 0: #每50次打印出一次損失值
        print(sets.run(loss, feed_dict={xs: x_data, ys: y_data}))

訓練權重值,模型擬合y = x^2-0.5的係數1和-0.5。損失值越來越小,訓練參數越來越逼近目標結果。評估模型,學習係數weights、biase前向傳播後和真值y = x^2-0.5結果係數比較,根據相近程度計算準確率。

超參數設定。hyper-parameters,機器學習模型框架參數。手動設定、不斷試錯。

學習率(learning rate),設置越大,訓練時間越短,速度越快。設置越小,訓練準確度越高。可變學習率,訓練過程記錄最桂準確率,連續n輪(epoch)沒達到最佳準確率,認爲準確率不再提高,停止訓練,early stopping,no_improvement-in-n規則。學習率減半,再滿足時再減半。逐漸接近最優解,學習率越小,準確度越高。

mini-batch大小。每批大小決定權重更新規則。整批樣本梯度全部計算完,才求平均值,更新權重。批次越大訓練速度越快,利用矩陣、線性代數庫加速,權重更新頻率低。批次越小,訓練速度越慢。結合機器硬件性能與數據集大小設定。

正則項係數(regularization parameter,λ)。憑經驗。複雜網絡出現明顯過擬合(訓練數據準確率高,測試數據準確率下降)。一開始設0,確定好學習率,再給λ設值,根據準確率精細調整。

參考資料:
《TensorFlow技術解析與實戰》

歡迎推薦上海機器學習工作機會,我的微信:qingxingfengzi

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章