Introduction to Graph Neural Network翻譯-第二章數學與圖基礎

2. 數學與圖基礎

2.1 線性代數

線性代數的語言和概念在計算機科學的許多領域都得到了廣泛的應用，機器學習也不例外。對機器學習的良好理解是建立在對線性代數的透徹理解的基礎上的。
在這一節中，我們將簡要回顧線性代數中的一些重要概念和計算，這對於理解本書的其餘部分是必要的。在這一節中，我們將回顧線性代數中的一些基本概念和計算，這對於理解本書的其餘部分是必要的。

2.1.1 基本概念

標量： 一個數

向量： 一列有序的數字，可以表示爲：

$\mathbf{x}=\left[\begin{array}{c} x_{1} \\ x_{2} \\ \vdots \\ x_{n} \end{array}\right] \tag{2.1}$
向量的範數衡量其長度。 $L_p$ 範數定義如下：

$\|\mathbf{x}\|_{p}=\left(\sum_{i=1}^{n}\left|x_{i}\right|^{p}\right)^{\frac{1}{p}} \tag{2.2}$

$L_1$ 範數、 $L_2$ 範數和 $L_{\infty}$ 範數常被用於機器學習。

$L_1$ 範數可以簡化爲：

$\|\mathbf{x}\|_{1}=\sum_{i=1}^{n}\left|x_{i}\right|\tag{2.3}$

在歐式空間 $\mathbb{R}^{n}$ ， $L_2$ 範數常被用來測量兩個向量直接的距離：

$\|\mathbf{x}\|_{2}=\sqrt{\sum_{i=1}^{n} x_{i}^{2}}\tag{2.4}$

$L_\infty$ 範數也叫最大範數，如：

$\|\mathbf{x}\|_{\infty}=\max _{i}\left|x_{i}\right|\tag{2.5}$

對於 $L_p$ 範數，向量 $x_1,x_2$ 之間的距離（其中， $x_1,x_2$ 都在相同的線性空間）可以定義爲：

$\mathbf{D}_{p}\left(\mathbf{x}_{1}, \mathbf{x}_{2}\right)=\left\|\mathbf{x}_{1}-\mathbf{x}_{2}\right\|_{p}\tag{2.6}$

一組向量 $x_1,x_2,...,x_m$ 當且僅當不存在一組不全爲0的標量 $\lambda_{1}, \lambda_{2}, \cdots, \lambda_{m}$ 時可以稱爲線性無關，例如：

$\lambda_{1} \mathbf{x}_{1}+\lambda_{2} \mathbf{x}_{2}+\cdots+\lambda_{m} \mathbf{x}_{m}=\mathbf{0}\tag{2.7}$

矩陣： 二維數組，可以表示爲：

$\mathbf{A}=\left[\begin{array}{cccc} a_{11} & a_{12} & \dots & a_{1 n} \\ a_{21} & a_{22} & \dots & a_{2 n} \\ \vdots & \vdots & \ddots & \vdots \\ a_{m 1} & a_{m 2} & \dots & a_{m n} \end{array}\right]\tag{2.8}$

其中， $\mathbf{A} \in \mathbb{R}^{m \times n}$

給定兩個矩陣 $\mathbf{A} \in \mathbb{R}^{m \times n},\mathbf{B} \in \mathbb{R}^{n \times p}$ ， $AB$ 的矩陣積可以表示爲 $\mathbf{C} \in \mathbb{R}^{m \times p}$ ,其中：

$\mathbf{C}_{i j}=\sum_{k=1}^{n} \mathbf{A}_{i k} \mathbf{B}_{k j}\tag{2.9}$

可以證明矩陣乘積是可結合的，但不一定是可交換的。

$(\mathbf{A B}) \mathbf{C}=\mathbf{A}(\mathbf{B C})\tag{2.10}$

適用於任意矩陣A，B和C（假定乘法是合法的）

$\mathbf{A B}=\mathbf{B A}\tag{2.11}$
上式並不總是爲真。

對於 $n\times n$ 的方陣 $A$ ，其行列式（也稱爲 $|A|$ ）定義爲：

$\operatorname{det}(\mathbf{A})=\sum_{k_{1} k_{2} \cdots k_{n}}(-1)^{\tau\left(k_{1} k_{2} \cdots k_{n}\right)} a_{1 k_{1}} a_{2 k_{2}} \cdots a_{n k_{n}}\tag{2.12}$

如果 $A$ 是方陣，意味着 $m=n$ ，矩陣 $A$ 的逆（表示爲 $A^{-1}$ ）,其滿足：

$\mathbf{A}^{-1} \mathbf{A}=\mathbf{I}\tag{2.14}$

其中 $I$ 是 $n\times n$ 的單位陣。

矩陣之間還有另一個經常使用的乘積稱爲Hadamard product.
兩個矩陣 $\mathbf{A} \in \mathbb{R}^{m \times n},\mathbf{B} \in \mathbb{R}^{m \times n}$ 的Hadamard product爲 $\mathbf{C} \in \mathbb{R}^{m \times n}$ ：

$\mathbf{C}_{i j}=\mathbf{A}_{i j} \mathbf{B}_{i j}\tag{2.15}$

Tensor： 具有任意維度的數組。大多數矩陣運算也適用於張量。

2.1.2 特徵分解

讓 $A$ 是一個矩陣，其中 $A\in \mathbb{R}^{n\times n}$ 。一個非0向量 $v\in \mathbb{C}^n$ 叫做 $A$ 的特徵向量，如果存在一個標量 $\lambda\in \mathbb{C}$ ：

$\mathbf{Av} = \lambda \mathbf{ v} \tag{2.16}$

標量 $\lambda$ 是對應於特徵向量 $\mathbf{v}$ 的一個 $\mathbf{A}$ 的特徵值。
如果矩陣 $\mathbf{A}$ 有 $n$ 個線性無關的特徵向量 $\mathbf{v_1,v_2,...,v_n}$ ，則對應的特徵值爲 ${\lambda_1,\lambda_2,...,\lambda_n}$ ，然後可以推導出：

$\mathbf{A}\left[\begin{array}{llll} \mathbf{v}_{1} & \mathbf{v}_{2} & \ldots & \mathbf{v}_{n} \end{array}\right]=\left[\begin{array}{llll} \mathbf{v}_{1} & \mathbf{v}_{2} & \ldots & \mathbf{v}_{n} \end{array}\right]\left[\begin{array}{cccc} \lambda_{1} & & & \\ & \lambda_{2} & & \\ & & \ddots & \\ & & & \lambda_{n} \end{array}\right]\tag{2.17}$

讓 $\mathbf{V}=\left[\begin{array}{llll}\mathbf{v}_{1} & \mathbf{v}_{2} & \dots & \mathbf{v}_{n}\end{array}\right]$ ；很明顯 $\mathbf{V}$ 是一個可逆矩陣。我們有 $\mathbf{A}$ 的特徵分解(也叫對角化)

$\mathbf{A}=\mathbf{V} \operatorname{diag}(\lambda) \mathbf{V}^{-1}\tag{2.18}$

也可以寫成以下形式：

$\mathbf{A}=\sum_{i=1}^{n} \lambda_{i} \mathbf{v}_{i} \mathbf{v}_{i}^{T}\tag{2.19}$

然而，並不是所有的方陣都能以這種形式對角化，因爲一個矩陣可能沒有 $n$ 個線性無關的特徵向量。幸運的是，可以證明每個實對稱矩陣都有一個特徵分解。

2.1.3 奇異值分解

由於特徵分解只能應用於某些矩陣，我們引入了奇異值分解，它是對所有矩陣的推廣。

首先，我們需要引入奇異值的概念。讓 $r$ 表示 $\mathbf{A^TA}$ 的秩，然後存在 $r$ 個正標量 $\sigma_{1} \geq \sigma_{2} \geq \cdots \geq \sigma_{r}>0$ ，對於 $1 \leq i \leq r$ ， $\mathbf{v}_i$ 是矩陣 $\mathbf{A^TA}$ 對應於特徵值 $\sigma_{i}^{2}$ 的特徵向量。
注意 $\mathbf{v_1,v_2,...,v_r}$ 是線性無關的。 $r$ 個正標量 $\sigma_1,\sigma_2,...,\sigma_r$ 叫做 $A$ 的奇異值。然後我們有奇異值分解：

$\mathbf{A}=U \Sigma V^{T}\tag{2.20}$

其中， $U \in \mathbb{R}^{m\times m},V(n\times n)$ 是正交矩陣並且 $\Sigma$ 是 $m\times n$ 的矩陣定義如下：

$\Sigma_{i j}=\left\{\begin{array}{ll} \sigma_{i} & \text { if } i=j \leq r \\ 0 & \text { otherwise } \end{array}\right.$

事實上，矩陣 $\mathbf{U}$ 的列向量是 $\mathbf{AA^T}$ 的特徵向量， $\mathbf{A^TA}$ 的特徵向量由 $\mathbf{V}$ 的列向量組成。

2.2 概率論

不確定性在機器學習領域無處不在，因此需要使用概率理論來量化和處理不確定性。在本節中，我們回顧了概率論中的一些基本概念和經典分佈，這對於理解本書的其餘部分至關重要。

2.2.1 基本概念和公式

在概率論中，隨機變量是具有隨機值的變量。例如，我們用 $X$ 表示一個具有兩個可能值 $x_1,x_2$ 的隨機值，則 $X=x_1$ 的概率爲 $P\left(X=x_{1}\right)$ ，顯然，以下等式仍然成立：

$P\left(X=x_{1}\right)+P\left(X=x_{2}\right)=1 \tag{2.21}$

假設有另一個隨機變量 $Y$ ，它的可能值是 $y_1$ 。 $X=x_1,Y=y_1$ 的概率可以寫爲 $P(X=x_1,Y=y_1)$ ，這稱爲 $X=x_1,Y=y_1$ 的聯合分佈。
有時我們需要知道隨機變量之間的關係，例如在 $Y=y_1$ 的情況下 $X=x_1$ 的概率，這個可以寫爲 $P(X=x_1|Y=y_1)$ 。這個我們稱爲在給定 $Y=y_1$ 的情況下， $X=x_1$ 的條件概率。

有了以上的概念，我們可以寫出概率論的兩個基本規則:

$P(X=x)=\sum_{y} P(X=x, Y=y)\tag{2.22}$

$P(X=x, Y=y)=P(Y=y | X=x) P(X=x)\tag{2.23}$

前者是求和法則，後者是乘積法則。稍微修改乘積法則的形式，我們得到了另一個有用的公式:

$\begin{aligned} P(Y=y | X=x) &=\frac{P(X=x, Y=y)}{P(X=x)} \\ &=\frac{P(X=x | Y=y) P(Y=y)}{P(X=x)} \end{aligned}\tag{2.24}$

這就是著名的貝葉斯公式。注意，它也適用於兩個以上的變量:

$P\left(X_{i}=x_{i} | Y=y\right)=\frac{P\left(Y=y | X_{i}=x_{i}\right) P\left(X_{i}=x_{i}\right)}{\sum_{j=1}^{n} P\left(Y=y | X_{j}=x_{j}\right) P\left(X_{j}=x_{j}\right)}\tag{2.25}$

利用乘積法則，我們可以推出鏈式法則:

$\begin{array}{l} P\left(X_{1}=x_{1}, \cdots, X_{n}=x_{n}\right) \\ =P\left(X_{1}=x_{1}\right) \prod_{i=2}^{n} P\left(X_{i}=x_{i} | X_{1}=x_{1}, \cdots, X_{i-1}=x_{i-1}\right) \end{array}\tag{2.26}$

其中 $X_1,X_2,...,X_n$ 是 $n$ 個隨機變量。

在概率分佈 $P(x)$ 下某個函數 $f(x)$ 的平均值（其中 $x$ 是某個隨機變量的值）稱爲 $f(x)$ 的期望。對於離散分佈，可以寫成：

$\mathbb{E}[f(x)]=\sum_{x} P(x) f(x)\tag{2.27}$

當 $f(x)=x$ 時， $\mathbb{E}[x]$ 代表 $x$ 的期望。

爲了測量 $f(x)$ 在其均值 $\mathbb{E}{f(x)}$ 周圍的離散程度，我們引入了方差：

$\begin{aligned} \operatorname{Var}(f(x)) &=\mathbb{E}\left[(f(x)-\mathbb{E}[f(x)])^{2}\right] \\ &=\mathbb{E}\left[f(x)^{2}\right]-\mathbb{E}[f(x)]^{2} \end{aligned}\tag{2.28}$

標準差是方差的平方根。在某種程度上，協方差表示兩個變量同時變化的程度:

$\operatorname{Cov}(f(x), g(y))=\mathbb{E}[(f(x)-\mathbb{E}[f(x)])(g(y)-\mathbb{E}[g(y)])]\tag{2.29}$

協方差越大，表明 $f(x)$ 和 $g(y)$ 之間的相關性越高。

2.2.2 概率分佈

概率分佈描述了一個或多個隨機變量在每個狀態下的概率。下面列出了幾個在機器學習領域有用的發行版。

高斯分佈: 它也被稱爲正態分佈，可以表示爲:

$N\left(x | \mu, \sigma^{2}\right)=\sqrt{\frac{1}{2 \pi \sigma^{2}}} \exp \left(-\frac{1}{2 \sigma^{2}}(x-\mu)^{2}\right)\tag{2.30}$

其中， $\mu$ 是變量 $x$ 的均值， $\sigma^2$ 是方差。

伯努利分佈: 隨機變量 $X$ 可以是0或1，概率是 $P(X=1)=p$ 。那麼分佈函數是

$P(X=x)=p^{x}(1-p)^{1-x}, x \in\{0,1\}\tag{2.31}$

很明顯 $E(X)=p$ ， $Var(X)=p(1-p)$ 。

二項分佈: 重複伯努利實驗 $N$ 次， $X=1$ 的次數用 $Y$ 表示

$P(Y=k)=\left(\begin{array}{l} N \\ k \end{array}\right) p^{k}(1-p)^{N-k}\tag{2.32}$

二項分佈滿足 $E(Y)=np,Var(Y)=np(1-p)$ 。

拉普拉斯分佈: 拉普拉斯分佈被描述爲

$P(x | \mu, b)=\frac{1}{2 b} \exp \left(-\frac{|x-\mu|}{b}\right)\tag{2.33}$

2.3 圖論

圖是GNNs研究的基礎課題。因此，要對GNN有一個全面的瞭解，就需要用到基礎圖論。

2.3.1 基本概念

圖通常用 $G=(V,E)$ 表示；其中 $V$ 是頂點的集合， $E$ 是邊的集合。

邊 $e=u,v$ 有兩個端點 $u,v$ ，可以認爲是由 $e$ 連接的。在這種情況下， $u$ 被稱爲 $v$ 的鄰居，換句話說，這兩個頂點是相鄰的。注意，邊可以是有向的也可以是無向的。
如果所有邊都是有向的，則將圖稱爲有向圖；如果所有邊都是無向的，則將圖稱爲無向圖。
頂點 $v$ 的度，由 $d(v)$ 表示，是與 $v$ 連接的邊數。

2.3.2 圖的代數表示

有一些有用的圖代數表示形式，如下所示。

鄰接矩陣： 對於有 $n$ 個頂點的簡單圖 $G=(V,E)$ ，可以用鄰接矩陣 $A\in \mathbb{R}^{n\times n}$ 來描述，其中：

$A_{i j}=\left\{\begin{array}{ll} 1 & \text { if }\left\{v_{i}, v_{j}\right\} \in E \text { and } i \neq j \\ 0 & \text { otherwise } \end{array}\right.$

顯然，當G是無向圖時，這種矩陣是對稱矩陣。

度數矩陣： 對於有 $n$ 個頂點的圖 $G=(V,E)$ ，其度數矩陣 $D\in \mathbb{R}^{n\times n}$
是對角矩陣，其中

$D_{ii}=d(v_i)$

拉普拉斯矩陣： 對於有 $n$ 個頂點的圖 $G=(V,E)$ ，如果我們認爲 $G$ 中的所有邊都是無向的，
然後其拉普拉斯矩陣 $L\in \mathbb{R}^{n\times n}$ 可以定義爲：

$L=D-A$

因此，我們具有以下元素：

$L_{i j}=\left\{\begin{array}{ll} d\left(v_{i}\right) & \text { if } i=j \\ -1 & \text { if }\left\{v_{i}, v_{j}\right\} \in E \text { and } i \neq j \\ 0 & \text { otherwise } \end{array}\right.$

注意，該圖被認爲是鄰接矩陣的無向圖。

對稱歸一化拉普拉斯算子： 對稱歸一化拉普拉斯算子定義爲：

$\begin{aligned} L^{s y m} &=D^{-\frac{1}{2}} L D^{-\frac{1}{2}} \\ &=I-D^{-\frac{1}{2}} A D^{-\frac{1}{2}} \end{aligned}$

元素由下式給出：

$L_{i j}^{s y m}=\left\{\begin{array}{ll} 1 & \text { if } i=j \text { and } d\left(v_{i}\right) \neq 0 \\ -\frac{1}{\sqrt{d\left(v_{i}\right) d\left(v_{j}\right)}} & \text { if }\left\{v_{i}, v_{j}\right\} \in E \text { and } i \neq j \\ 0 & \text { otherwise } \end{array}\right.$

隨機遊走歸一化的拉普拉斯算子： 它定義爲：

$L^{r w}=D^{-1} L=I-D^{-1} A$

可以通過以下方式計算元素：

$L_{i j}^{r w}=\left\{\begin{array}{ll} 1 & \text { if } i=j \text { and } d\left(v_{i}\right) \neq 0 \\ -\frac{1}{d\left(v_{i}\right)} & \text { if }\left\{v_{i}, v_{j}\right\} \in E \text { and } i \neq j \\ 0 & \text { otherwise } \end{array}\right.$

關聯矩陣： 表示圖的另一個常用矩陣是關聯矩陣。對於有 $n$ 個頂點和 $m$ 條邊的
圖 $G=(V,E)$ ，對應的關聯矩陣 $M\in \mathbb{R}^{n\times m}$ ，其中：

$M_{i j}=\left\{\begin{array}{ll} 1 & \text { if } \exists k \text { s.t } e_{j}=\left\{v_{i}, v_{k}\right\} \\ -1 & \text { if } \exists k \text { s.t } e_{j}=\left\{v_{k}, v_{i}\right\} \\ 0 & \text { otherwise. } \end{array}\right.$

對於無向圖，對應的關聯矩陣滿足這個條件

$M_{i j}=\left\{\begin{array}{ll} 1 & \text { if } \exists k \text { s.t } e_{j}=\left\{v_{i}, v_{k}\right\} \\ 0 & \text { otherwise } \end{array}\right.$

Introduction to Graph Neural Network翻譯-第二章數學與圖基礎

2. 數學與圖基礎

2.1 線性代數

2.1.1 基本概念

2.1.2 特徵分解

2.1.3 奇異值分解

2.2 概率論

2.2.1 基本概念和公式

2.2.2 概率分佈

2.3 圖論

2.3.1 基本概念

2.3.2 圖的代數表示

wsl2+hadoop2.7.7僞分佈式配置

順序匹配網絡：基於檢索的聊天機器人中多回合響應選擇的新架構

web3.js學習記錄：查看geth賬戶信息

以太坊學習記錄：私有鏈，私有鏈集羣，智能合約

論文翻譯：Attention is all you need

https://yachay.unat.edu.pe/blog/index.php?comment_area=format_blog&comment_component=blog&comment_co

linux以太網驅動總結