零基礎入門篇使用Python搭建點擊率預估模型

本文將從零開始，僅僅利用基礎的numpy庫，使用Python實現一個最簡單的神經網絡(或者說是簡易的LR，因爲LR就是一個單層的神經網絡)，解決一個點擊率預估的問題。感興趣的朋友跟隨小白一起看看吧
點擊率預估模型

0.前言

本篇是一個基礎機器學習入門篇文章，幫助我們熟悉機器學習中的神經網絡結構與使用。

日常中習慣於使用Python各種成熟的機器學習工具包，例如sklearn、TensorFlow等等，來快速搭建各種各樣的機器學習模型來解決各種業務問題。

本文將從零開始，僅僅利用基礎的numpy庫，使用Python實現一個最簡單的神經網絡(或者說是簡易的LR，因爲LR就是一個單層的神經網絡)，解決一個點擊率預估的問題。

1.假設一個業務場景

聲明：爲了簡單起見，下面的一切設定從簡….

定義需要解決的問題：

老闆：小李，這臺機器上有一批微博的點擊日誌數據，你拿去分析一下，然後搞點擊率預測啥的…

是的，就是預測一篇微博是否會被用戶點擊(被點擊的概率)……預測未來，貌似很神奇的樣子！

熱門微博

簡單的介紹一下加深的業務數據

每一條微博數據有由三部分構成： {微博id, 微博特徵X, 微博點擊標誌Y}

微博特徵X有三個維度：X={x0="該微博有娛樂明星”，x1="該微博有圖”，x2="該微博有表情”}
微博是否被點擊過的標誌Y：

Y={y0=“點擊”, y1=“未點擊”}

數據有了，接下來需要設計一個模型，把數據輸入進去進行訓練之後，在預測階段，只需要輸入{微博id,微博特徵X}，模型就會輸出每一個微博id會被點擊的概率
2.任務分析：

這是一個有監督的機器學習任務

對於有監督的機器學習任務，可以簡單的分爲分類與迴歸問題，這裏我們簡單的想實現預測一條微博是否會被用戶點擊，預測目標是一個二值類別：點擊，或者不點擊，顯然可以當做一個分類問題。

所以，我們需要搭建一個分類模型（點擊率預測模型），這也就決定我們需要構建一個有監督學習的訓練數據集。

模型的選擇

選擇最簡單神經網絡模型，人工神經網絡有幾種不同類型的神經網絡，比如前饋神經網絡、卷積神經網絡及遞歸神經網絡等。本文將以簡單的前饋或感知神經網絡爲例，這種類型的人工神經網絡是直接從前到後傳遞數據的，簡稱前向傳播過程。

3.數據準備：

整體的流程：

數據預處理(數值化編碼)——>特徵篩選——>選擇模型(前饋神經網絡)——>訓練模型——>模型預測

假設，對4條微博的數據進行數值化編碼，可以表示爲如下的矩陣格式：
訓練數據XY

解讀一條樣本數據：
第一條樣本數據爲：X0=[0 0 1]，分別對應着三維的特徵，最後4x1的矩陣是Y，0表示無，1表示有，可知該特徵對應的Y0是未點擊。

所以，這條樣本可以翻譯爲：[該微博沒娛樂明星，沒有圖片，有表情]，最終y=0，代表該條微博沒有被點擊。

業務以及數據特徵是不是很簡單….簡單有點看起來編的不太合理 - ！

4.神經網絡基本結構：

1.輸入層：輸入的業務特徵數據

2.隱藏層：初始化權重參數

3.激活函數：選擇激活函數

4.輸出層：預測的目標，定義損失函數

我們即將使用的機器學習模型：
超級簡單的前饋神經網絡

機器學習模型類似一個黑盒子，輸入歷史點擊的數據，進行訓練，然後就可以對未來的額數據進行預測….我們上面設計的是一個超級簡單的前饋神經網絡，但是可以實現我們上面的目的。

關於激活函數：

通過引入激活函數，實現了非線性變換，增強了模型的擬合效果。

關乎激活函數，請看之前的文章吾愛NLP(2)–解析深度學習中的激活函數

在本文教程中，使用的是簡單的Sigmoid激活函數，但注意一點，在深層神經網絡模型中， sigmoid激活函數一般不作爲首選，原因是其易發生梯度彌散現象。
sigmoid公式

此函數可以將任何值映射到0到1之間，並能幫助我們規範化輸入的加權和。
sigmoid圖像

對sigmoid激活函數求偏導該偏導函數嗎，等下寫程序會用到，所以先放在這裏！

模型的訓練

訓練階段，模型的輸入X已經確定，輸出層的Y確定，機器學習模型確定，唯一需要求解的就是模型中的權重W，這就是訓練階段的目標。

主要由三個核心的流程構成：

前向計算—>計算損失函數—>反向傳播

本文使用的模型是最簡單的前饋神經網絡，起始就是一個LR而已….所以整個過程這裏就不繼續介紹了，因爲之前已經寫過一篇關於LR的文章— 邏輯迴歸（LR）個人學習總結篇，如果對其中的細節以及公式的推導有疑問，可以去LR文章裏面去尋找答案。

這裏再提一下權重參數W更新的公式：![至此，所有的寫代碼需要的細節都已經交代結束了，剩下的就是代碼了。

至此，所有的寫代碼需要的細節都已經交代結束了，剩下的就是代碼了。

5.使用Python代碼構建網絡

# coding:utf-8
import numpy as np 
class NeuralNetwork(): 
 # 隨機初始化權重
 def __init__(self): 
  np.random.seed(1) 
  self.synaptic_weights = 2 * np.random.random((3, 1)) - 1
 # 定義激活函數：這裏使用sigmoid
 def sigmoid(self, x): 
  return 1 / (1 + np.exp(-x)) 
 #計算Sigmoid函數的偏導數 
 def sigmoid_derivative(self, x): 
  return x * (1 - x)
 # 訓練模型 
 def train(self, training_inputs, training_outputs,learn_rate, training_iterations): 
  # 迭代訓練
  for iteration in range(training_iterations): 
   #前向計算 
   output = self.think(training_inputs) 
   # 計算誤差 
   error = training_outputs - output 
   # 反向傳播-BP-微調權重 
   adjustments = np.dot(training_inputs.T, error * self.sigmoid_derivative(output)) 
   self.synaptic_weights += learn_rate*adjustments 
 def think(self, inputs): 
  # 輸入通過網絡得到輸出 
  # 轉化爲浮點型數據類型 
  inputs = inputs.astype(float) 
  output = self.sigmoid(np.dot(inputs, self.synaptic_weights)) 
  return output 
if __name__ == "__main__": 
 # 初始化前饋神經網絡類 
 neural_network = NeuralNetwork() 
 print "隨機初始化的權重矩陣W"
 print neural_network.synaptic_weights
 # 模擬訓練數據X
 train_data=[[0,0,1], [1,1,1], [1,0,1], [0,1,1]]
 training_inputs = np.array(train_data) 
 # 模擬訓練數據Y
 training_outputs = np.array([[0,1,1,0]]).T 
 # 定義模型的參數：
 # 參數學習率
 learn_rate=0.1
 # 模型迭代的次數
 epoch=150000
 neural_network.train(training_inputs, training_outputs, learn_rate, epoch) 
 print "迭代計算之後權重矩陣W: "
 print neural_network.synaptic_weights
 # 模擬需要預測的數據X
 pre_data=[0,0,1]
 # 使用訓練的模型預測該微博被點擊的概率
 print "該微博被點擊的概率："
 print neural_network.think(np.array(pre_data))
"""
終端輸出的結果：
隨機初始化的權重矩陣W
[[-0.16595599]
 [ 0.44064899]
 [-0.99977125]]
迭代計算之後權重矩陣W: 
[[12.41691302]
 [-0.20410552]
 [-6.00463275]]
該微博被點擊的概率：
[0.00246122]
[Finished in 20.2s]
"""

推薦我們的Python學習扣qun：913066266 ，看看前輩們是如何學習的！從基礎的python腳本到web開發、爬蟲、django、數據挖掘等【PDF，實戰源碼】，零基礎到項目實戰的資料都有整理。送給每一位python的小夥伴！每天都有大牛定時講解Python技術，分享一些學習的方法和需要注意的小細節，點擊加入我們的 python學習者聚集地
6.總結：

根據終端輸出的模型訓練以及預測的結果，針對預測數據pre_data=[0,0,1]，模型輸出該微博被點擊的概率爲0.00246，很顯然被點擊的概率比較小，可以認爲簡單認爲該微博不會被點擊！

是的，我們的業務目標初步實現了----輸入任意一條微博的樣本數據到我們的機器學習模型中，既可以輸出該樣本被點擊的概率。

上面的就是我們設計的一個超級簡單的模型，假設了一個超級簡單的業務場景，並隨機設定了超簡單的訓練數據，如果有編的不合理地方多多包涵！！！該例子雖然可能並不能幫你解決實際的業務問題，但是對於機器學習的新手理解神經網絡，或許會有一點點幫助吧！

零基礎入門篇使用Python搭建點擊率預估模型

「Pygors跨平臺GUI」1：Pygors跨平臺GUI應用研究

[轉帖]

python列出centos7內存使用前50的進程信息

「Pygors跨平臺GUI」2：安裝MinGW-w64、MSYS2還是WSL2

一鍵自動化博客發佈工具,用過的人都說好(掘金篇)

通義千問 2.5 “客串” ChatGPT4，你分的清嗎？

Garnet：微軟官方基於.NET開源的高性能分佈式緩存存儲數據庫

Flink執行圖

Java響應式編程

評估統計算法在銀行僞造鈔票檢測中的價值

python編程使用協程併發的優缺點

對Python新手編程過程中如何規避一些常見問題的建議

Python的Flask框架中集成CKeditor富文本編輯器的教程

python核心編程之Python聚類算法之凝聚層次聚類實例分析

Python編程實現蟻羣算法詳解

https://yachay.unat.edu.pe/blog/index.php?comment_area=format_blog&comment_component=blog&comment_co

linux以太網驅動總結