使用tensorflow來解決MNIST手寫體數字識別問題

import tensorflow as tf
from tensorflow.examples.tutorials.mnist import input_data

INPUT_NODE = 784     # 輸入層的節點數。對於MNIST 數據集,這個就等於圖片的像素。
OUTPUT_NODE = 10     # 輸出層的節點數。這個等於類別的數目。因爲在MNIST數據集中需要區分的是0~9這10 個數字,所以這裏輸出層的節點數爲10。
LAYER1_NODE = 500    # 隱藏層節點數。這裏使用只有一個隱藏層的網絡結構作爲樣例。這個隱藏層有500 個節點   
                              
BATCH_SIZE = 100     # 一個訓練batch 中的訓練數據個數。數字越小時,訓練過程越接近隨機梯度下降; 數字越大時,訓練越接近梯度下降。

# 模型相關的參數
LEARNING_RATE_BASE = 0.8      # 基礎的學習率
LEARNING_RATE_DECAY = 0.99    # 學習率的衰減率
REGULARAZTION_RATE = 0.0001   # 描述模型複雜度的正則化項在損失函數中的係數。
TRAINING_STEPS = 5000         # 訓練輪數。
MOVING_AVERAGE_DECAY = 0.99   # 滑動平均衰減率。

# 一個輔助函數,給定神經網絡的輸入和所有參數,計算神經網絡的前向傳播結果。在這裏
# 定義了一個使用ReLU激活函數的三層全連接神經網絡。通過加入隱藏層實現了多層網絡結構,
# 通過ReLU 激活函數實現了去線性化。在這個函數中也支持傳入用於計算參數平均值的類,
# 這樣方便在測試時使用滑動平均模型。
def inference(input_tensor, avg_class, weights1, biases1, weights2, biases2):
    # 當沒有提供滑動平均類時,直接使用參數當前的取值
    if avg_class == None:
        # 計算隱藏層的前向傳播結果,這裏使用了ReLU 激活函數。
        layer1 = tf.nn.relu(tf.matmul(input_tensor, weights1) + biases1)
        
        # 計算輸出層的前向傳播結果。因爲在計算損失函數時會一併計算softmax函數,
        # 所以這裏不需要加入激活函數。而且不加入softmax 不會影響預測結果。因爲預測時
        # 使用的是不同類別對應節點輸出值的相對大小,有沒有softmax 層對最後分類結果的
        # 計算沒有影響。於是在計算整個神經網絡的前向傳播時可以不加入最後的softmax 層。
        return tf.matmul(layer1, weights2) + biases2

    else:
        # 首先使用avg_class.average 函數來計算得出變量的滑動平均值,
        # 然後再計算相應的神經網絡前向傳播結果
        layer1 = tf.nn.relu(tf.matmul(input_tensor, avg_class.average(weights1)) + avg_class.average(biases1))
        return tf.matmul(layer1, avg_class.average(weights2)) + avg_class.average(biases2)  
    
def train(mnist):
    x = tf.placeholder(tf.float32, [None, INPUT_NODE], name='x-input')
    y_ = tf.placeholder(tf.float32, [None, OUTPUT_NODE], name='y-input')
    # 生成隱藏層的參數。
    weights1 = tf.Variable(tf.truncated_normal([INPUT_NODE, LAYER1_NODE], stddev=0.1))
    biases1 = tf.Variable(tf.constant(0.1, shape=[LAYER1_NODE]))
    # 生成輸出層的參數。
    weights2 = tf.Variable(tf.truncated_normal([LAYER1_NODE, OUTPUT_NODE], stddev=0.1))
    biases2 = tf.Variable(tf.constant(0.1, shape=[OUTPUT_NODE]))

    # 計算在當前參數下神經網絡前向傳播的結果。這裏給出的用於計算滑動平均的類爲None,
    # 所以函數不會使用參數的滑動平均值
    y = inference(x, None, weights1, biases1, weights2, biases2)
    
    # 定義存儲訓練輪數的變量。這個變量不需要計算滑動平均值,所以這裏指定這個變量爲
    # 不可訓練的變量(trainable=Fasle)。在使用TensorFlow 訓練神經網絡時,
    #一般會將代表訓練輪數的變量指定爲不可訓練的參數。
    global_step = tf.Variable(0, trainable=False)
    
    # 給定滑動平均衰減率和訓練輪數的變量,初始化滑動平均類。給
    # 定訓練輪數的變量可以加快訓練早期變量的更新速度。
    variable_averages = tf.train.ExponentialMovingAverage(MOVING_AVERAGE_DECAY, global_step)
    
    # 在所有代表神經網絡參數的變量上使用滑動平均。其他輔助變量(比如global_step) 就
    # 不需要了。tf.trainable_variables 返回的就是圖上集合
    variables_averages_op = variable_averages.apply(tf.trainable_variables())
    
    # 計算使用了滑動平均之後的前向傳播結果。滑動平均不會改變變量本身的取值,
    # 而是會維護一個影子變量來記錄其滑動平均值。所以當需要使用這個滑動平均值時,
    # 需要明確調用average 函數。
    average_y = inference(x, variable_averages, weights1, biases1, weights2, biases2)
    
    # 計算交叉熵作爲刻畫預測值和真實值之間差距的損失函數。這裏使用了TensorFlow 中提
    # 供的sparse softmax cross_entropy with logits 函數來計算交叉熵。當分類
    # 問題只有一個正確答案時,可以使用這個函數來加速交叉熵的計算。MNIST 問題的圖片中
    # 只包含了0~9 中的一個數字,所以可以使用這個函數來計算交叉熵損失。這個函數的第一個
    # 參數是神經網絡不包括softmax 層的前向傳播結果,第二個是訓練數據的正確答案。因爲
    # 標準答案是一個長度爲10 的一維數組,而該函數需要提供的是一個正確答案的數字,所以需
    # 要使用tf.argmax 函數來得到正確答案對應的類別編號。
    cross_entropy = tf.nn.sparse_softmax_cross_entropy_with_logits(logits=y, labels=tf.argmax(y_, 1))
    # 計算在當前batch 中所有樣例的交叉熵平均值。
    cross_entropy_mean = tf.reduce_mean(cross_entropy)
    
    # 計算L2 正則化損失函數。
    regularizer = tf.contrib.layers.l2_regularizer(REGULARAZTION_RATE)
    # 計算模型的正則化損失。一般只計算神經網絡邊上權重的正則化損失,而不使用偏置項。
    regularaztion = regularizer(weights1) + regularizer(weights2)
    # 總損失等於交叉熵損失和正則化損失的和。
    loss = cross_entropy_mean + regularaztion
    
    # 設置指數衰減的學習率
    learning_rate = tf.train.exponential_decay(
        LEARNING_RATE_BASE,     # 基礎的學習率,隨着迭代的進行,更新變量時使用的學習率在這個基礎上遞減。
        global_step,            # 當前迭代的輪數
        mnist.train.num_examples / BATCH_SIZE,  # 過完所有的訓練數據需要的迭代次數
        LEARNING_RATE_DECAY,    # 學習率衰減速度
        staircase=True)


    # 使用tf.train.GradientDescentOptimizer 優化算法來優化損失函數。注意這裏損失函數
    # 包含了交叉熵損失和L2 正則化損失。
    train_step = tf.train.GradientDescentOptimizer(learning_rate).minimize(loss, global_step=global_step)
    
    # 在訓練神經網絡模型時,每過一遍數據既需要通過反向傳播來更新神經網絡中的參數,
    # 又要更新每一個參數的滑動平均值。爲了一次完成多個操作,TensorFlow 提供了兩種機制
    with tf.control_dependencies([train_step, variables_averages_op]):
        train_op = tf.no_op(name='train')

    # 檢驗使用了滑動平均模型的神經網絡前向傳播結果是否正確。tf.argmax (average_ y,1)
    # 計算每一個樣例的預測答案。其中average_y 是一個batch_size * 10 的二維數組,每一行
    # 表示一個樣例的前向傳播結果。tf.argmax 的第二個參數“1”表示選取最大值的操作僅在第一
    # 個維度中進行,也就是說,只在每一行選取最大值對應的下標。於是得到的結果是一個長度爲
    # batch 的一維數組,這個一維數組中的值就表示了每一個樣例對應的數字識別結果。tf.equal
    # 判斷兩個張量的每一維是否相等,如果相等返回True,否則返回False。
    correct_prediction = tf.equal(tf.argmax(average_y, 1), tf.argmax(y_, 1))
    # 這個運算首先將一個布爾型的數值轉換爲實數型,然後計算平均值。這個平均值就是模型在這
    # 一組數據上的正確率。
    accuracy = tf.reduce_mean(tf.cast(correct_prediction, tf.float32))
    
    # 初始化會話,並開始訓練過程。
    with tf.Session() as sess:
        tf.global_variables_initializer().run()
        # 準備驗證數據。一般在神經網絡的訓練過程中會通過驗證數據來大致判斷停止的條件和評判訓練的效果。
        validate_feed = {x: mnist.validation.images, y_: mnist.validation.labels}
        # 準備測試數據。在真實的應用中,這部分數據在訓練時是不可見的,這個數據只是作爲模型優劣的最後評價標準。
        test_feed = {x: mnist.test.images, y_: mnist.test.labels} 
        
        # 循環的訓練神經網絡。
        for i in range(TRAINING_STEPS):
            if i % 1000 == 0:
                # 計算滑動平均模型在驗證數據上的結果。因爲MNIST 數據集比較小,所以一次
                # 可以處理所有的驗證數據。爲了計算方便,本樣例程序沒有將驗證數據劃分爲更
                # 小的batch。當神經網絡模型比較複雜或者驗證數據比較大時,太大的batch
                # 會導致計算時間過長甚至發生內存溢出的錯誤。
                validate_acc = sess.run(accuracy, feed_dict=validate_feed)
                print("After %d training step(s), validation accuracy using average model is %g " % (i, validate_acc))
                
            # 產生這一輪使用的一個batch 的訓練數據,並運行訓練過程。
            xs,ys=mnist.train.next_batch(BATCH_SIZE)
            sess.run(train_op,feed_dict={x:xs,y_:ys})
        # 在訓練結束之後,在測試數據上檢測神經網絡模型的最終正確率。
        test_acc=sess.run(accuracy,feed_dict=test_feed)

print(("After %d training step(s), test accuracy using average model is %g" %(TRAINING_STEPS, test_acc)))

#主程序入口

def main(argv=None):    

#聲明處理MNIST 數據集的類,這個類在初始化時會自動下載    

mnist = input_data.read_data_sets("/tmp/data",one_hot=True)    

train(mnist)    

#Tensorflow 提供的一個主程序入口,tf.app.run 會調用上面定義的main函數

if __name__ == '__main__':    

tf.app.run()

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章