全連接前向神經網絡與手寫數字的實踐

原創

2020-06-17 04:53

文章首發於個人博客

文章目錄

引言

上一篇文章提到了 logistics regression 、多分類的 softmax 算法及梯度等概念，其實就可以很自然的引出深度學習了。

引用WiKi的定義：

深度學習（deep learning）是機器學習的分支，是一種試圖使用包含複雜結構或由多重非線性變換構成的多個處理層對數據進行高層抽象的算法。

早在1958年就提出了 perceptron 的模型，即最簡單的線性感知機模型，在當時引起了很大的轟動，甚至提出了機器可以取代人的說法，然而後來就被人質疑，現在看來線性感知機的限制顯而易見。

然後在20世紀80年代，根據之前 perceptron 提出了 multi-layer perceptron（又叫 Neural Network），這個模型和當今的深度神經網絡是沒有顯著區別的。1986年提出了反向傳播的概念，但是通常大於三層的 hidden layer 就沒有效果了，神經網絡學習出現了梯度消失的問題。

後來在 2006年，在上述神經網絡的算法模型上，取得了一些改進（RBM initialization），將之前 multi-layer perceptron 改了個名字 —— Deep Learning 重新提了出來，2009年的時候 DL 的運算開始利用 GPU，後面其在各個領域取得了一些突破性的應用進展，就火起來了。

所以，深度學習並不是什麼新鮮事物，只是換了個名字的稍微改進的舊模型。

全連接前向神經網絡

一個全連接的前向神經網絡示例如下所示，其激活函數是之前提到的 sigmod 函數，經過這個全連接的神經網絡，其 weight 和 bias 都知道的情況下，輸入的向量就會不斷的變化，最後輸出一個向量。

一般來說，Fully Connect Feedforward Network 的架構如下圖所示，前一層每個輸入都連接到下一層的所有神經元中：

其輸入層和輸出層都是一個 vector，但是其 dimension 不一定相同，其中的 hidden layer 一般有多層，這也是 Deep Learning 的 Deep 所在。

而神經網絡的運算實質是矩陣運算，這也是爲什麼 GPU 能加速神經網絡的原因所在。

實例

以之前一直在用的手寫數字識別爲例，分別使用 keras 和 pytorch 搭建兩個 fully connect feedforward network 模型，使用 Mnist 數據集進行訓練。

首先是 keras （Using TensorFlow backend.）的代碼如下:

#!/usr/local/bin/python3.6

import numpy as np
import os
import matplotlib.pyplot as plt
import keras
from keras.models import Sequential
from keras.layers.core import Dense, Dropout, Activation
from keras.utils import np_utils
from keras import backend as K

# 多核 CPU 使用設置
K.set_session(K.tf.Session(config=K.tf.ConfigProto(device_count={"CPU": 8},
                inter_op_parallelism_threads=8,
                intra_op_parallelism_threads=8,
                log_device_placement=True)))

# tensorboard 可視化        
tbCallBack = keras.callbacks.TensorBoard(log_dir='./Graph',
                                         histogram_freq=1,
                                         write_graph=True,
                                         write_images=True)

# 加載數據集
def load_data(file_path):
    f = np.load(file_path)
    x_train, y_train = f['x_train'], f['y_train']
    x_test, y_test = f['x_test'], f['y_test']
    f.close()
    return (x_train, y_train), (x_test, y_test)


# 初始化數據
(X_train, y_train), (X_test, y_test) = load_data('./mnist.npz')

X_train = X_train.reshape(60000, 784)
X_test = X_test.reshape(10000, 784)
X_train = X_train.astype('float32')
X_test = X_test.astype('float32')
X_train /= 255
X_test /= 255

nb_classes = 10
# 將 label 數據轉化爲 one-hot，因爲模型訓練 loss 參數爲 categorical_crossentropy
Y_train = np_utils.to_categorical(y_train, nb_classes)
Y_test = np_utils.to_categorical(y_test, nb_classes)

# 初始化一個 model
model = Sequential()
# 添加第一層，輸入是784維，第一層節點爲 500，激活函數爲 relu
model.add(Dense(500, input_shape=(784,)))
model.add(Activation('relu'))
# model.add(Dropout(0.2))
# 添加第二層，節點爲 500，激活函數爲 relu
model.add(Dense(500))
model.add(Activation('relu'))
# model.add(Dropout(0.2))
# 添加輸出層，輸出 10 維，激活函數爲 softmax
model.add(Dense(10))
model.add(Activation('softmax'))

# 配置模型訓練參數，loss 使用多類的對數損失函數，optimizer 優化器使用 adam，模型性能評估使用 accuracy
model.compile(loss='categorical_crossentropy', optimizer='adam', metrics=['accuracy'])

# 開始訓練，batch_size爲100， 10 個 epoch，callbacks調用 tensorboard
model.fit(X_train, Y_train,
          batch_size=100, epochs=10,
          validation_data=(X_test, Y_test),
          callbacks=[tbCallBack]
          )

score = model.evaluate(X_test, Y_test, verbose=0)
print('Test score:', score[0])
print('Test accuracy:', score[1])

這是一個兩層的全連接前向神經網絡，訓練了 10 epochs，準確率如下：

沒有 GPU，純 CPU 跑起來的不算慢，準確率達到 97.7%，其神經網絡結構圖如下：

pytorch 使用起來就沒 keras 那麼簡單了，其代碼如下：

import os
import torch
import torch.nn as nn
import torchvision
import torchvision.transforms as transforms

# 多核 cpu 設置
os.environ["OMP_NUM_THREADS"] = "8"
os.environ["MKL_NUM_THREADS"] = "8"

# 設置使用 CPU
device = torch.device('cpu')

# 參數配置
input_size = 784
hidden_size = 500
num_classes = 10
num_epochs = 10
batch_size = 100
learning_rate = 0.001
# 1 MNIST dataset 加載圖像數據
train_dataset = torchvision.datasets.MNIST(root='.',
                                           train=True,
                                           transform=transforms.ToTensor(),
                                           download=True)

test_dataset = torchvision.datasets.MNIST(root='.',
                                          train=False,
                                          transform=transforms.ToTensor())

# 2 Data loader pytorch的數據加載方式，tensorflow是沒有的
train_loader = torch.utils.data.DataLoader(dataset=train_dataset,
                                           batch_size=batch_size,
                                           shuffle=True)

test_loader = torch.utils.data.DataLoader(dataset=test_dataset,
                                          batch_size=batch_size,
                                          shuffle=False)


# 3 Fully connected neural network with one hidden layer 定義網絡
class NeuralNet(nn.Module):
    def __init__(self, input_size, hidden_size, num_classes):
        super(NeuralNet, self).__init__()
        self.fc1 = nn.Linear(input_size, hidden_size)
        self.relu = nn.ReLU()
        self.fc2 = nn.Linear(hidden_size, num_classes)

    def forward(self, x):
        out = self.fc1(x)
        out = self.relu(out)
        out = self.fc2(out)
        return out


model = NeuralNet(input_size, hidden_size, num_classes).to(device)

# 4 Loss and optimizer 定義損失和優化函數
criterion = nn.CrossEntropyLoss()
optimizer = torch.optim.Adam(model.parameters(),
                             lr=learning_rate)

# 5 Train the model 訓練模型
total_step = len(train_loader)
for epoch in range(num_epochs):
    for i, (images, labels) in enumerate(train_loader):  # batch size的大小
        # Move tensors to the configured device
        images = images.reshape(-1, 28*28).to(device)
        labels = labels.to(device)

        # Forward pass 前向傳播
        outputs = model(images)
        loss = criterion(outputs, labels)

        # Backward and optimize 後向傳播
        optimizer.zero_grad()
        loss.backward()
        optimizer.step()

        if (i+1) % 100 == 0:
            print('Epoch [{}/{}], Step [{}/{}], Loss: {:.4f}'
                   .format(epoch+1, num_epochs, i+1, total_step, loss.item()))

# Test the model 預測
# In test phase, we don't need to compute gradients (for memory efficiency)
with torch.no_grad():
    correct = 0
    total = 0
    for images, labels in test_loader:
        images = images.reshape(-1, 28*28).to(device)
        labels = labels.to(device)
        outputs = model(images)
        _, predicted = torch.max(outputs.data, 1)
        total += labels.size(0)
        correct += (predicted == labels).sum().item()

    print('Accuracy of the network on the 10000 test images: {} %'
            .format(100 * correct / total))

# Save the model checkpoint
torch.save(model.state_dict(), 'model.ckpt')

準確率如下:

總體時間上，要比 TF 的慢，從源碼編譯了一遍安裝還是慢。。

發表評論

所有評論

還沒有人評論，想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.

相關文章

618網購節，電商能擋住惡意網絡爬蟲的攻擊嗎？

2023年，杭州中院審結了兩起涉及“搬店軟件”的不正當競爭案件。本案的原告是國內某大型知名電子商務平臺的運營主體，而被告則是開發了一款名爲“某搬家快速商品上貨批量發佈”的複製軟件，被控非法獲取平臺商品信息並在其他服務市場銷售。根據原告的訴

2024-06-07 00:14:57

大模型在推薦系統中的精準推薦策略與實踐

引言推薦系統在現代互聯網應用中佔據了極其重要的位置。無論是電商平臺、社交媒體、音樂和視頻流媒體服務，還是新聞和內容推薦系統，推薦系統都在提高用戶體驗和平臺收益方面發揮着關鍵作用。近年來，隨着人工智能和機器學習技術的迅猛發展，大模型（如G

2024-06-06 23:55:10

原來Stable Diffusion是這樣工作的

stable diffusion是一種潛在擴散模型，可以從文本生成人工智能圖像。爲什麼叫做潛在擴散模型呢？這是因爲與在高維圖像空間中操作不同，它首先將圖像壓縮到潛在空間中，然後再進行操作。在這篇文章中，我們將深入瞭解它到底是如何工作的,還

2024-06-06 21:38:48

什麼是LLM大模型訓練，詳解Transformer結構模型

本文分享自華爲雲社區《LLM 大模型學習必知必會系列(四)：LLM訓練理論篇以及Transformer結構模型詳解》，作者：汀丶。 1.模型/訓練/推理知識介紹深度學習領域所謂的“模型”，是一個複雜的數學公式構成的計算步驟。爲了便於理解

2024-06-04 11:09:34

Prompt Tuning：大模型微調實戰

隨着深度學習技術的不斷髮展，大模型在各種任務中取得了顯著的成果。然而，大模型的訓練需要大量的數據和算力，導致在實際應用中受到限制。爲了解決這個問題，研究者們提出了微調的方法，即使用預訓練模型在少量數據上進行訓練，使其適應特定的任務。在Pr

2024-06-03 12:14:42

走進京東“卓越研效架構師”首期研習營圓滿收官

五月的北京，春深半夏，花開滿城。由全國雲計算技術行業產教融合共同體牽頭，攜手工業和信息化部電子第五研究所、E³CI軟件研發效能度量工作委員會以及京東雲共同主辦的“走進京東——卓越研效架構師”研習營，於5月17-18日和24-26日在北京京東

2024-05-31 23:55:49

兒童節變身小小音樂家*用ModelArts製作一張AIGC音樂專輯

本文分享自華爲雲社區《兒童節變身小小音樂家*用ModelArts製作一張AIGC音樂專輯》*作者* 華爲雲社區精選。兒童節*如何給小朋友準備一份特別的禮物* 這份AIGC音樂專輯製作攻略一定要收下一段文字靈感就能編織出一曲悠揚悅耳的旋

2024-05-31 11:04:39

金融反欺詐指南：車險欺詐爲何如此猖獗？

青島市人民檢察院在其官方微信公衆號上發佈的梁某保險詐騙案顯示，2020 年以來，某汽修廠負責人梁某、某汽車服務公司負責人孫某，與保險公司的趙某等人相互勾結，收購二手北汽等品牌新能源汽車，併爲這些車輛購買車損險。隨後，他們利用暴雨天氣，故意製

2024-05-30 00:16:51

基於Fluid與JindoCache的大模型訓練加速實踐

隨着人工智能技術的不斷髮展，深度學習模型變得越來越複雜，參數量動輒幾十億甚至上百億。這樣的“大模型”在帶來強大性能的同時，也對訓練過程提出了極高的要求。尤其是在數據加載和計算資源利用方面，傳統的訓練方法往往難以滿足快速、高效的需求。爲此，我

2024-05-28 12:12:15

【終極指南】使用Python可視化分析文本情感傾向

本文分享自華爲雲社區《Python理解文本情感傾向的終極指南》，作者：檸檬味擁抱。情感分析是一種通過自然語言處理技術來識別、提取和量化文本中的情感傾向的方法。Python在這一領域有着豐富的庫和工具，如NLTK、TextBlob和VAD

2024-05-28 10:58:03

AI安全志：英國AI騙保事件增加300%！

最近，英國《衛報》報道稱，一些騙子正在利用人工智能照片編輯軟件篡改照片，以進行保險欺詐活動。這一發現令保險公司震驚，因爲這可能導致汽車保險費用飆升至歷史最高水平。安聯保險公司表示，從2021年至2023年期間，利用應用程序篡

2024-05-28 00:15:50

解讀注意力機制原理，教你使用Python實現深度學習模型

本文分享自華爲雲社區《使用Python實現深度學習模型：注意力機制（Attention）》，作者：Echo_Wish。在深度學習的世界裏，注意力機制（Attention Mechanism）是一種強大的技術，被廣泛應用於自然語言處理（NL

2024-05-27 10:58:44

智能測試持續加碼，大模型引領軟件測試新生態

在軟件行業日新月異的今天，智能測試已成爲提升軟件質量的關鍵環節。大模型的崛起，更是爲軟件測試帶來了前所未有的變革。隨着AI和ML技術的突飛猛進，智能測試得到了快速發展，實現了對測試過程的自動化和智能化管理，顯著提高了測試效率和質量。如今，智

2024-05-25 02:07:17

風控指南：國內車險欺詐呈現四大趨勢

2024年4月11日，國家金融監督管理總局官網發佈國家金融監督管理總局關於《反保險欺詐工作辦法（徵求意見稿）》公開徵求意見的公告。《徵求意見》共6章、37條，明確反保險欺詐工作目標是建立“監管引領、機構爲主、行業聯防、各方協同”四位一體的

2024-05-23 12:16:45

智能高效的IDE GoLand v2024.1全新發布 - 進一步升級AI輔助工具

GoLand 使 Go 代碼的閱讀、編寫和更改變得非常容易。即時錯誤檢測和修復建議，通過一步撤消快速安全重構，智能代碼完成，死代碼檢測和文檔提示幫助所有 Go 開發人員，從新手到經驗豐富的專業人士，創建快速、高效、和可靠的代碼。立即獲取G

2024-05-21 12:19:26

24小時熱門文章

最新文章

最新評論文章