2021 卷积神经网络—揭开卷积背后的面纱

原創

2021-03-22 18:42

在开始介绍卷积神经网络之前，觉得有必要先说一说计算机是如何读解图像语义的。在计算机中是采用什么样数据结构来保存图像。只有理解这些内容我们还此基础上开始研究让给你计算机像人类一样读取图片语义来做一些计算机任务。

我在西瓜视频发布相关视频，账号 zidea 头像和简书一致，希望大家多多关注。

其实用矩阵来保存一张图像，通过将 3 维矩阵来表示一张图像，可以理解将图像切分一个一个小方块 (pixel) 每个小方块都有一个位置信息座标，pixel 颜色通过 RBG 来表示，可能还具有透明通道，或者带有表示深度的通道，就用这些信息来表示一张图像输入给计算机。这样这种表示存储图像方式比较低级，会丢失许多语义信息。

我们可以将图像理解为一个函数 $f(x,y)$ 其中 $x$ 和 $y$ 表示像素位置，输出一个像素 RGB 值。

那么计算机在面对这些只有位置和颜色的信息数据，想要得到更多信息就需要靠自己，因为信息不足，这样对于计算机来理解或者读懂一张图片的语义无形带来困难。

以及有关图像的一些问题，我们需要读懂一张图像就像知道图像变化，计算机通过感知这些变化(边缘变化)，有了边缘信息可以将图像进行分隔具有一定含义区域。

为了把握图片 intensity 变化看层空间上变换，空间变化程度可以看成图片的一些特征，在边和角是图片。

我们可以将图像处理为灰度图，在灰度图中明暗可以 intensity 来描述图片。这里 intensity 可以简单理解为我们某一像素(点)对光感知程度。怎么把这件事说清楚呢。我们看到物体是物体反射的光，发生不同颜色光以及光强度来反映一个物体。在计算机上我们将图像数字化过程，就是给图像每一个位置一个像素值，这个值可以分解为多个通道，值大小表示感光的程度。这就是我们在计算机视觉中要研究的对象。

通过 3D 视图形象地将我们如何通过灰度图 intensity 来表示图。接下来说一说卷积，

卷积

学习卷积神经也有一段时间，虽然已经了解到了如何将卷积应用到图像进行运算来得到特征图，以及卷积如何应用图片上进行滤波、降噪、锐化以及边缘检测。但是如何要深究卷积，还是有点摸不到头脑。所以收集一些资料。

我们先把公式抛出来，大家先看一看，觉得有点陌生也不要紧，接下来我们就来详细解释这个公式由来以及其应用

$(f * g)(n) = \int_{-\infty}^{+ \infty} f(\tau)g(n - \tau) d \tau$

$(f*g)(n) = \sum_{-\infty}^{ \infty} f(\tau)g(n - \tau) d \tau$

$f(x),g(x)$ 是在 $\mathbb{R}$ 上可以积分的函数
大家可能已经注意到了 $\tau + (n - \tau) = n$
所谓积分就是曲线进行切分很小的间隔然后进行求和，其实所谓的积分就是求和

$P_1(x) = \frac{1}{6}$

$z= (x+y) = 3$

假设两次抽取扑克牌概率是独立
$P(z=3) = P_1(1)P_1(2)+ \cdots + P_1(2)P_1(1)$

接下来用图解方式给大家详细介绍卷积，以及卷积的过程，假设我们有两个骰子，每次一起投掷骰子。通过连线来表示两两组合。

如果我们找出两个骰子数加起来为 6 的组合，通过连线方式表达出来

同上，如果我们想要找出两个骰子数加起来为 8 的组合，通过连线方式表达出来。不过这样连线看起来不是很舒服，所以我们可以通过翻卷得到就得到下面的形式，这就是卷积的由来。

这张图

我们把一个骰子做行，另一个骰子作为列组成一个矩阵，如果再次选择让两个骰子数值相加得到某一个数值时，组合情况用颜色表示出来如以下几张图，就有点像将一张 paper 从右上角开始卷起。

卷积的特性

滤波Filtering
卷积Convolution
矩阵Matrix
颜色值Color values
卷积核 kernel:

空间频率

卷积滤波用于修改图像的空间频率特性。

卷积的定义

一般卷积可以用于图片的滤镜效果，是对图像
卷积是运算，用整数组成的矩阵扫过图像
卷积在图片上作用可以看作，通过将所有相邻像素的加权值相加来确定中心像素的值
输出经过过滤的图像
卷积核就是放置权重的模版

卷积是如何处理图片

通过将一个像素及其相邻像素的颜色值乘以一个矩阵，也就是对应位置数值相乘。

<img src="./images/conv_001.png">

$V = \frac{\sum_i^q \left( \sum_j^q f_{ij} d_{ij} \right)}{F}$

$f_{ij}$ 卷积的像素
$d_{ij}$ 像素的值
F 系数
V 表示输出像素

卷积核进行旋转 180 度后，再去做卷积操作，如果不进行旋转卷积核的操作叫做相关，其实通常卷积核都是对称的。可以将我们神经网络学习到卷积核

<img src="./images/conv_003.png">

卷积的性质

叠加性: $filter(f_1 + f_2) = filter(f_1) + filter(f_2)$
平移不变性: $filter(shift(f)) = shift(filter(f))$
交换律
结合律
分配律
标量

边界填充

一般经过卷积操作的图像会变小，所以为了保持输入和输出图像一样大小，需要在做卷积前对边界进行填充。

拉伸填充
镜像填充
0 填充

平滑和锐化

<img src="./images/conv_005.png">

纹理特征(Texture Features)
形态特征(Morphological Features)

图像平滑

根据某一个像素其周围值来重新计算得到改点的新的值从而实现平滑。
$\frac{10 + 5 + 3 + 4 + 5 + 1 + 1+ 1+ 7}{9} = 7$

互相关

$G[i,j] = \sum_{u = -k}^k \sum_{v = -k}^k H[u,v] F[i + u, j+ v]$

卷积

$G[i,j] = \sum_{u = -k}^k \sum_{v = -k}^k H[u,v] F[i - u, j - v]$

發表評論

所有評論

還沒有人評論，想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.

相關文章

京东面试：如何进行JVM调优？

JVM 調優是一個很大的話題，在回答“如何進行 JVM 調優？”之前，首先我們要回答一個更爲關鍵的問題，那就是，我們爲什麼要進行 JVM 調優？只有知道了爲什麼要進行 JVM 調優之後，你才能準確的回答出來如何進行 JVM 調優？要進行

Java中文社羣

2024-05-21 14:43:06

WinSW——将.exe文件注册为服务的一个工具

https://github.com/winsw/winsw

2024-05-21 14:34:55

Azure Service Principals ----- Azure 上最好保守的秘密的服务

一，引言　　Azure Service Principals 是 Azure Active Directory (AAD) 中的一種標識，代表應用程序，服務，自動化流程。Service Principals 支持各種 Azure 服務和資

2024-05-21 14:34:25

程序设计思路-球连球组成的群

　　編碼設計有很多思路，都是在簡化映射實際問題時遇到的問題。　　之前和別人交流，得到一句“把它放在同一個地方好維護”，相同的功能只出現在一個地方。就會出現代碼的聚合設計，也就是一種通用的功能索引，或者說面向對象的思想。　　首先程序可以被

2024-05-21 14:32:55

Flink内存模型

之前聊Flink的slot時簡單提到過內存，Flink計算框架的內存大致分爲Flink使用的內存、Jvm使用的內存。Flink爲什麼不全使用JVM內存的原因是顯而易見的，作爲實時計算框架，JVM內存依賴GC自動回收一旦稍微慢一點，就會對

人不瘋狂枉一生

2024-05-21 14:32:45

Flink富函数

富函數是DataStream API提供的函數接口，Flink的函數都有它的Rich版本，它與其他函數不同的是，富函數可以獲取到運行環境上下文，初始化參數，擁有生命週期方法等，可通過它進行自定義複雜功能。我們常見的如RichMapFu

人不瘋狂枉一生

2024-05-21 14:32:45

YiShaAdmin：一款基于.NET Core Web + Bootstrap的企业级快速开发框架

前言今天大姚給大家分享一款基於.NET Core Web + Bootstrap的企業級快速後臺開發框架、權限管理系統，代碼簡單易懂、界面簡潔美觀（基於MIT License開源，免費可商用）：YiShaAdmin。項目官方介紹 YiS

2024-05-21 14:31:45

美团一面：项目中有 10000 个 if else 如何优化？想了半天，被问懵了！

大家好，我是R哥。最近做 Java 面試輔導，有個兄弟面試美團，遇到一個特別有意思的問題：一萬個 if else 如何優化，有好的解決方案嗎？我看到這問題都有點懵逼，現實項目中怎麼可能會有 10000 個 if else 的代碼

2024-05-21 14:31:14

一种精度更高的hopf直线检测策略, 一种高精度边缘检测方法.

#aaa是cv.read圖片. img = aaaa.copy() gray = cv2.cvtColor(img,cv2.COLOR_BGR2GRAY) ret, binary = cv2.threshold(gray, 0, 25

張博的博客

2024-05-21 14:29:34

深入了解安全工具Vault、Vault根令牌和解封密钥，详细整理部署Vault的详细步骤

一、深入瞭解安全工具Vault Vault是一種開源工具，用於安全地存儲、管理和控制訪問各種機密信息，如密碼、API令牌、安全配置和其他敏感數據。Vault使用強大的加密和安全管理技術來保護這些機密信息，併爲應用程序和服務提供安全的訪問

2024-05-21 14:23:34

keycloak~作为第三方登录的对接标准

當某些合作商希望把你的keycloak作爲他們的一種第三方登錄方式時，就像微信，google，github，使用你的keycloak上的賬戶資源時，你就需要考慮如何做一個開放的，標準的文檔了。一基本角色認證提供者：keycloak服

2024-05-21 14:22:24

hdu4027（线段树区间操作）

Problem - 4027 (hdu.edu.cn)許多邪惡的戰艦在戰鬥前排成一排。我們的指揮官決定使用我們的祕密武器來消滅戰列艦。每艘戰列艦都可以標記爲耐力值。對於我們祕密武器的每一次攻擊，它都可能降低連續部分戰列艦的續航能力，使它們

2024-05-21 14:20:03

Python 将PowerPoint (PPT/PPTX) 转为HTML

PPT是傳遞信息、進行彙報和推廣產品的重要工具。然而，有時我們需要將這些精心設計的PPT演示文稿發佈到網絡上，以便於更廣泛的訪問和分享。本文將介紹如何使用Python將PowerPoint文檔轉換爲網頁友好的HTML格式。包含兩個簡單示例：

2024-05-21 14:19:53

如何构建一个系统

假設有要處理的數據 A1 A2 A3 ... 你想要設計一個功能 F，這個F應該處理數據 Ai，那麼你需要編寫程序P=F，是的： O1 = F(A1) O2 = F(A2) O3 = F(A3) ... 如果寫了個F，一次就解決了，那就萬事

2024-05-21 14:18:13

172.22.56.0/22

172.22.56.0/22 56對應的二進制是00111000, 16+6=22。所以第三個byte的後面2位bit可以使用。 The IP address and subnet mask you provided, 172.22.5

2024-05-21 14:16:52

24小時熱門文章

最新文章

最新評論文章