基於Tensorflow+MNIST的前向傳播神經網絡

import tensorflow as tf
from tensorflow.example.tutorials.mnist import imput_data

#MNIST數據集相關的常數
INPUT_NODE = 784        #輸入層的節點數,這裏等於圖片的像素
OUTPUT_NODE = 10        #輸出層節點數,這裏爲0~9共10個數子

#配置神經網絡的參數

LAYER1_NODE = 500       #隱藏層節點數,這裏使用只有一個隱藏層的網絡結構作爲樣例
BATCH_SIZE = 100        #一個訓練batch中的訓練數據個數.
                        #數字越小時,訓練過程越接近隨機梯度下降;數字越大,訓練越接近梯度下降
LEARNING_RATE_BASE = 0.8         #基礎的學習率
LEARNING_RATE_DECAY = 0.99       #學習率的衰減率
REGULARIZATION_RATE = 0.0001     #描述模型複雜度的正則化項在損失函數中的係數
TRAINING_STEPS = 30000           #訓練輪數
MOVING_AVERAGE_DECAY = 0.99      #滑動平均衰減率

"""
一個輔助函數,給定神經網絡的輸入和所有參數,計算神經網絡的前向傳播結果.在這裏定義了一個使用ReLU 激活函數的三層全連接神經網絡.通過加入隱藏層實現了多層網絡結構,通過ReLU激活函數實現了去線性化.在這個函數中也支持傳入用於計算參數平均值的類,方便在測試時使用滑動平均模型.
"""
def inference(input_tensor, avg_class, weights1, biases1, weights2, biases2):
    #當沒有提供滑動平均類時,直接使用參數當前的取值
    if avg_class == None:
        #計算隱藏層的前向傳播結果,這裏使用了ReLU激活函數
        layer1 = tf.nn.relu(tf.matmul(input_tensor, weights1) + biases1)

        """計算輸出層的前向傳播結果.因爲在計算損失函數時會一併計算softmax函數,所以這裏不需要加入激活函數.而且不加入softmax不會影響預測結果,因爲預測時使用的是不同類別對應節點輸出值的相對大小,有沒有softmax層對最後分類結果的計算沒有影響,所以在計算整個神經網絡的前向傳播時可以不加入最後的softmax層"""
        return tf.matmul(layer1, weights2) + biases2

    else:
        #首先使用avg_class.average函數來計算得出變量的滑動平均值,然後再計算相應的神經網絡前向傳播結果
        layer1 = tf.nn.relu(tf.matmul(input_tensor, avg_class.average(weights1)) +
                            avg_class.average(biases1))
        return tf.matmul(layer1, avg_class.average(weights2)) + avg_class.average(biases2)


    #訓練模型的過程
    def train(mnist):
        x = tf.placeholder(tf.float32, [None, INPUT_NODE], name='x-input')
        y_= tf.placeholder(tf.float32, [None, OUTPUT_NODE], name='y-input')

        #生成隱藏層的參數
        weights1 = tf.Variable(tf.truncated_normal([INPUT_NODE, LAYER1_NODE], stddev=0.1))
        biases1 = tf.Variable(tf.constant(0.1, shape=[LAYER1_NODE]))
        #生成輸出層的參數
        weights2 = tf.Variable(tf.truncated_normal([LAYER1_NODE, OUTPUT_NODE], stddev=0.1))
        biases2 = tf.Variable(tf.constant(0.1, shape=[OUTPUT_NODE]))

        #計算在當前參數下神經網絡前向傳播的結果,這裏給出的用於計算滑動平均的類爲None,
        #所以函數不會使用參數的滑動平均值
        y = inference(x, None, weights1, biases1, weights2, biases2)

        #定義存儲訓練輪數的變量,這個變量不需要計算滑動平均值,所以這裏指定這個變量爲不可訓練的變量,
        #在使用tensorflow訓練神經網絡時,一般會將代表訓練輪數的變量指定爲不可訓練的參數.
        global_step = tf.Variable(0, trainable = False)

        #給定滑動平均衰減率和訓練輪數的變量,初始化滑動平均類.
        #給定訓練輪數的變量可加快訓練早期變量的更新速度
        variable_averages = tf.train.ExponentialMovingAverage(MOVING_AVERAGE_DECAY, global_step)

        #在所有代表神經網絡參數的變量上使用滑動平均.其他輔助變量如global_step就不需要了.
        #tf.trainable_variable返回的就是圖上集合GraphKeys.TRAINABLE_VARIABLES中的元素,
        #這個集合的元素就是所有沒有指定trainable= False的參數
        variables_averages_op = variable_average.apply(tf.trainable_variables())

        #計算使用了滑動平均後的前向傳播結果
        average_y = inference(x, varibale_averages, weights1, biases1, weights2, biases2)

        #計算交叉熵作爲刻畫預測值和真實值之間差距的損失函數
        cross_entropy = tf.nn.sparse_softmax_cross_entropy_with_logits(y, tf.argmax(y_, 1))
        #計算在當前batch中所有樣例的交叉熵平均值
        cross_entropy_mean = tf.reduce_mean(cross_entropy)

        #計算L2正則化損失函數
        regularizer = tf.contrib.layers.l2_regularizer(REGULARIZATION_RATE)
        #計算模型的正則化損失.一般只計算神經網絡邊上權重的正則化損失,而不使用偏置項
        regularization = regularizer(weights1) + regularizer(weights2)
        #總損失等於交叉熵損失和正則化損失的和
        loss = cross_entropy + regularization
        #設置指數衰減的學習率
        learning_rate = tf.train.exponential_decay(
            LEARNING_RATE_BASE,   #基礎的學習率,隨着迭代的進行,更新變量時使用的學習率在這個基礎上遞減
            global_step,          #當前迭代的輪數
            mnist.train.num_examples/BATCH_SIZE, #過完所有訓練數據需要的迭代次數
            LEARNING_RATE_DECAY)  #學習率衰減速度

    #使用tf.train.GradientDescentOptimizer優化算法來優化損失函數,這裏包含了交叉熵和l2正則化損失
    train_step = tf.train.GradientDescentOptimizer(learning_rate).minimize(loss,
                                                                           global_step=global_step)

    #在訓練神經網絡模型時,每過一遍數據即需要通過反向傳播來更新神經網絡中的參數,又要更新每一個參數的滑動平均值.爲了一次完成多個操作,tensorflow提供了tf.control_dependencies和tf.group兩種機制.下面兩行程序和train_op = tf.group(train_step, variables_averages_op)是等價的.
    with tf.control_dependencies([teain_step, variables_averages_op]):
        train_op = tf.no_op(name = 'train')


    
    #檢驗使用了滑動平均模型的神經網絡前向傳播結果是否正確
    """tf.argmax(average_y, 1)計算每一個樣例的預測答案.其中average_y是一個batch_size*10的二維數組,每一行表示一個樣例的前向傳播結果.tf.argmax的第二個參數"1"表示選取最大值的操作僅在第一個維度中進行,也就是說,只在每一行選取最大值對應的下標.於是得到的結果時一個長度爲batch的一維數組,這個一維數組中的值就表示了每一個樣例對應的數字識別結果.tf.equal判斷兩個張量的每一維是否相等,如果相等返回True,否則返回False."""
    correct_prediction = tf.equal(tf.argmax(average_y, 1), tf.argmax(y_, 1))
    #這個運算首先將一個布爾型的數值轉換爲實數型,然後計算平均值.這個平均值就是模型在這一組數據上的正確率
    accuracy = tf.reduce_mean(tf.cast(correct_prediction, tf.float32))

    #初始化會話並開始訓練過程
    with tf.Session() as sess:
        tf.initialize_all_variables().run

        #準備驗證數據,一般在神經網絡的訓練過程中會通過驗證數據來大致判斷停止的條件和評判訓練的結果.
        validate_feed = {x: mnist.validation.images, y_: mnist.validation.labels}

        #準備測試數據,在真實的應用中,這部分數據在訓練時是不可見的,這個數據只是作爲模型優劣的最後評價標準.
        test_feed = {x:mnist.test.images, y_:mnist.test.labels}

        #迭代的訓練神經網絡
        for i in range(TRAINING_STEPS):
            #每1000輪輸出一次在驗證數據集上的測試結果
            if i %1000 == 0:
                """計算滑動平均模型在驗證數據上的結果,因爲MNIST數據集較小,所以一次可以處理所有的驗證數據.爲了計算方便,本樣例沒有把驗證數據劃分爲更小的batch.當神經網絡模型比較複雜或者驗證數據比較大時,太大的batcg會導致計算時間過長甚至發生內存溢出的錯誤."""
                validate_acc = sess.run(accuracy, feed_dict=validate_feed)
                print("After %d training step(s), validation accuracy"
                      "using average model is %g " %(i, validate_acc))

                #產生這一輪使用的一個batch的訓練數據,並運行訓練過程
                xs,ys = mnist.train.next_batch(BATCH_SIZE)
                sess.run(train_op, feed_dict={x: xs, y_:ys})

            #在訓練結束之後,在測試數據上檢測神經網絡模型的最終正確率
            test_acc = sess.run(accuracy, feed_dict=test_feed)
            print("After %d training step(s), test accuracy using average"
                  "model is %g "% (TRAINING_STEPS, test_acc))

#主程序入口
def main(argv=None):
    #聲明處理MNIST數據集的類,這個類在初始化時會自動下載數據
    mnist = input_data.read_data_sets("/tmp/data", one_hot=True)
    train(mnist)

#tensorflow提供的一個主程序入口,tf.app.run會調用上面定義的main函數
if __name__ == '__main__':
    tf.app.run()
        

 

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章