使用mnist數據集實現手寫字體的識別

原創

2018-11-21 06:51

1.MNIST是一個入門級的計算機視覺數據集，它包含各種手寫數字圖片：
它也包含每一張圖片對應的標籤，告訴我們這個是數字幾,該數據集包括60000行的訓練數據集（mnist.train
）和10000行的測試數據集（mnist.test），每一張圖片包含28X28個像素點

2.首先使用softmax迴歸實現手寫字體的識別（代碼）

import input_data#input_data下載用於訓練和測試的MNIST數據集的源碼
mnist = input_data.read_data_sets("MNIST_data/", one_hot=True)
# mnist是一個輕量級的類。它以Numpy數組的形式存儲着訓練、校驗和測試數據集。
# 同時提供了一個函數，用於在迭代中獲得minibatch，後面我們將會用到。
# 構建Softmax 迴歸模型
import tensorflow as tf
#使用TensorFlow程序的流程是先創建一個圖，然後在session中啓動它。
sess = tf.InteractiveSession()
x=tf.placeholder("float",shape=[None,784]) #784是一張展平的MNIST圖片的維度(28*28)
y_=tf.placeholder("float",shape=[None,10])
# 變量
W=tf.Variable(tf.zeros([784,10]))
b=tf.Variable(tf.zeros([10]))
#變量需要通過seesion初始化後，才能在session中使用
init=tf.global_variables_initializer()
sess.run(init)
# 把向量化後的圖片x和權重矩陣W相乘，加上偏置b，然後計算每個分類的softmax概率值。
y=tf.nn.softmax(tf.matmul(x,W)+b)
#損失函數是目標類別和預測類別之間的交叉熵。
cross_entropy=-tf.reduce_sum(y_*tf.log(y))
#訓練模型
train_step=tf.train.GradientDescentOptimizer(0.01).minimize(cross_entropy)
#,返回的train_step操作對象，在運行時會使用梯度下降來更新參數。
# 整個模型的訓練可以通過反覆地運行train_step來完成。
for i in range(1000):
    batch=mnist.train.next_batch(50)
    #我們都會加載50個訓練樣本，然後執行一次train_step，
    # 並通過feed_dict將x 和 y_張量佔位符用訓練訓練數據替代。
    train_step.run(feed_dict={x:batch[0],y_:batch[1]})

#返回一個布爾數組。爲了計算我們分類的準確率，
# 我們將布爾值轉換爲浮點數來代表對、錯，然後取平均值。
#評估模型
correct_prediction=tf.equal(tf.argmax(y,1),tf.argmax(y_,1))
accuracy=tf.reduce_mean(tf.cast(correct_prediction,"float"))
#我們可以計算出在測試數據上的準確率，大概是91%。
print(accuracy.eval(feed_dict={x:mnist.test.images,y_:mnist.test.labels}))

3.腳本用於自動下載mnist數據集（input.py）
"""Functions for downloading and reading MNIST data."""
from __future__ import absolute_import
from __future__ import division
from __future__ import print_function

# pylint: disable=unused-import
import gzip
import os
import tempfile

import numpy
from six.moves import urllib
from six.moves import xrange  # pylint: disable=redefined-builtin
import tensorflow as tf
from tensorflow.contrib.learn.python.learn.datasets.mnist import read_data_sets
# pylint: enable=unused-import

結果準確率達到91%

4.下面採用卷積神經網絡實現手寫字體的識別，採用conv-pool-conv-pool-fc-dropout-softmax

 
def weight_variable(shape):
    initial=tf.truncated_normal(shape,stddev=0.1)
    return tf.Variable(initial)

def  bias_variable(shape):
    initial=tf.constant(0.1,shape=shape)
    return tf.Variable(initial)

def conv2d(x,W):
    return tf.nn.conv2d(x,W,strides=[1,1,1,1],padding='SAME')

def max_pool_2x2(x):
    return tf.nn.max_pool(x,ksize=[1,2,2,1],strides=[1,2,2,1],padding='SAME')

#第一層，一個卷積接一個max pooling
w_conv1=weight_variable([5,5,1,32])
b_conv1=bias_variable([32])
x_image=tf.reshape(x,[-1,28,28,1])

h_conv1=tf.nn.relu(conv2d(x_image,w_conv1)+b_conv1)
h_pool1=max_pool_2x2(h_conv1)

#第二層卷積
w_conv2=weight_variable([5,5,32,64])
b_conv2=bias_variable([64])
h_conv2=tf.nn.relu(conv2d(h_pool1,w_conv2)+b_conv2)
h_pool2=max_pool_2x2(h_conv2)

#全連接層

w_fc1=weight_variable([7*7*64,1024])
b_fc1=bias_variable([1024])
h_pool2_flat=tf.reshape(h_pool2,[-1,7*7*64])
h_fc1=tf.nn.relu(tf.matmul(h_pool2_flat,w_fc1)+b_fc1)

#dropout
#我們用一個placeholder來代表一個神經元的輸出在dropout中保持不變的概率。
# 這樣我們可以在訓練過程中啓用dropout，在測試過程中關閉dropout
keep_prob = tf.placeholder("float")
h_fc1_drop = tf.nn.dropout(h_fc1, keep_prob)

#輸出層
w_fc2=weight_variable([1024,10])
b_fc2=bias_variable([10])

y_conv=tf.nn.softmax(tf.matmul(h_fc1_drop,w_fc2)+b_fc2)

#訓練與評估模型
cross_entropy=-tf.reduce_sum(y_*tf.log(y_conv))
train_step=tf.train.GradientDescentOptimizer(1e-4).minimize(cross_entropy)
correct_prediction = tf.equal(tf.argmax(y_conv,1), tf.argmax(y_,1))
accuracy = tf.reduce_mean(tf.cast(correct_prediction, "float"))
sess.run(tf.initialize_all_variables())
for i in range(2000):
  batch = mnist.train.next_batch(50)
  if i%100 == 0:
    train_accuracy = accuracy.eval(feed_dict={
        x:batch[0], y_: batch[1], keep_prob: 1.0})
    print ("step %d, training accuracy %g"%(i, train_accuracy))
  train_step.run(feed_dict={x: batch[0], y_: batch[1], keep_prob: 0.5})

print ("test accuracy %g"%accuracy.eval(feed_dict={
    x: mnist.test.images, y_: mnist.test.labels, keep_prob: 1.0}))

當迭代2000次訓練時， training accuracy 0.96，test accuracy 0.963。顯然比非卷積神經網絡準確率高很多。

發表評論

所有評論

還沒有人評論，想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.

使用mnist數據集實現手寫字體的識別

《日本蠟燭圖》讀書筆記 & 技術分析回測

Python多線程編程深度探索：從入門到實戰

《期貨-市場技術分析》讀書筆記

mongodb處理json數據很好

頂級 Javaer 都在用的 20 個類庫，真香！

[轉帖]cpupower

google瀏覽器插件開發

35K*14 薪，入職了！這公司只要不裁員，我能一直呆下去！

使用mnist數據集實現手寫字體的識別

sppnet

AlexNet : ImageNet Classification with Deep Convolutional Neural Networks

指數加權平均和momentum梯度下降

吳恩達深度學習第三週作業（Planar data classification with one hidden layer)

https://yachay.unat.edu.pe/blog/index.php?comment_area=format_blog&comment_component=blog&comment_co

linux以太網驅動總結