論文閱讀-基於LSA的摘要生成

文章目錄

1.1 權重選擇

原文《Generic Text Summarization Using Relevance Measure and
Latent Semantic Analysis》介紹了兩種摘要生成的方法，但是我主要閱讀了第二部分，即利用LSA的方法。

簡介

LSA的工作原理是將數據投影到較低維空間而不會有任何重要信息丟失。解釋該空間分解操作的一種方式是奇異向量可以捕獲並表示在語料庫中重複出現的單詞組合模式。奇異值的大小表示模式在文檔中的重要性。

1、句子向量化

那怎麼把文檔中的句子變成向量呢？原文

即 $T_{i}$ 是passage $i$ 的詞頻向量，向量中每一個值 $t_{ji}$ 表示的是詞 $j$ 在passage $i$ 出現的頻率。這裏passage $i$ 可以是一個短語，也可以是句子，還可以是段落，甚至是整篇文檔。(有i個passage，j個詞)

那麼，passage $i$ 的加權詞頻向量 $A_{i}=\left[\begin{array}{llll}a_{1i}&a_{2i}& \ldots & a_{ni}\end{array}\right]^T$ ，向量每一個值爲：

$a_{j i}=L\left(t_{j i}\right) \cdot G\left(t_{j i}\right)$

1.1 權重選擇

權重的選擇也是有很多方法的。

1.1.1 局部權重

先說 $L(i)$ 的選擇方式：

使用詞頻 $tf(i)$ ，即詞 $i$ 在句子出現的次數
只要詞 $i$ 在句子出現， $L(i)=1$ ，反之， $L(i)=0$
按照 $L(i) = 0.5 + 0.5 \dot (tf (i)=tf (max))$ ，就是先用出現次數最多的那個詞做一個歸一化
還可以通過 $L(i)=log(1+tf(i))$ 來進行計算

1.1.2 全局權重

對於 $G(i)$ 也有很多種選擇方式：

可以讓全局的權重一樣，即 $G(i)=1$
逆文檔頻率，即 $G(i) = log(N/n(i))$ ， $N$ 是句子總數， $n(i)$ 是包含詞i的句子數

下面是奇異值分解（SVD)過程：句子矩陣
$\mathbf{A}=\left[\begin{array}{llll}A_{1} & A_{2} & \ldots & A_{n}\end{array}\right]$
每一列向量 $A_{i}$ 表示的是句子 $i$ 在整個文檔中的加權詞頻向量（weighted term-frequence vector），如果一共有 $m$ 個詞和 $n$ 個句子，那麼文檔的 $\mathbf{A}$ 矩陣維度是 $m \times n$ .如果每一詞在句子中出現的頻率都很低，那麼 $\mathbf{A}$ 就是一個稀疏矩陣。

一般來說， $m \geq n$ ，那麼矩陣 $\mathbf{A}$ 的SVD定義爲：

$\mathbf{A}=\mathbf{U} \Sigma \mathbf{V}^{T}$
其中 $\mathbf{U}=[u_{ij}]$ 是一個 $m \times n$ 的列正交矩陣，每一列稱爲左奇異向量（即特徵向量 $\mathbf{U}\mathbf{U}^{*}$ ； $\Sigma=\operatorname{diag}\left(\sigma_{1}, \sigma_{2}, \ldots, \sigma_{n}\right)$ 是一個 $n \times n$ 的對角矩陣，對角線上每一個值都是非負的奇異值，按降序排列。 $\mathbf{V}=[v_{ij}]$ 是一個 $n \times n$ 的對角矩陣，每一列是右奇異向量（即特徵向量 $\mathbf{V}^{*}\mathbf{V}$ ）

在線性代數中，一個矩陣A的列秩是A的線性獨立的縱列的極大數目。記 $\operatorname{rank}(\mathbf{A})=r$ ，那麼 $\Sigma$ 滿足：

$\sigma_{1} \geq \sigma_{2} \cdots \geq \sigma_{r}>\sigma_{r+1}=\cdots=\sigma_{n}=0$
從上面式子可以看出，我們只需要一個 $r*r$ 的對角矩陣，就可以覆蓋大多數（90%）的原來的信息，這就是一個降維的過程。即
$A_{m \times n}=U_{m \times m} \Sigma_{m \times n} V_{n \times n}^{T} \approx U_{m \times r} \Sigma_{r \times r} V_{r \times n}^{T}$

2、SVD過程

可以從兩方面來理解SVD過程。從矩陣變換的角度看，這是一個降維的過程，從 $m$ 維到 $r$ 維，前者是加權詞頻向量，後者是線性無關向量。我們回顧下 $\mathbf{A}$ 的每一列表示的是句子i的加權詞頻向量，每一行表示的是詞j在每個文檔中出現次數。這個映射將矩陣 $\mathbf{A}$ 中的每一列 $i$ 映射到矩陣 $\mathbf{V}^{T}$ 的列向量 $\psi_{i}=\left[\begin{array}{llll}v_{i 1} & v_{i 2} & \cdots & v_{i r}\end{array}\right]^{T}$ ；將矩陣 $\mathbf{A}$ 中的每一行向量映射到矩陣 $\mathbf{U}$ 的一行 $\varphi_{j}=\left[\begin{array}{llll}u_{j 1} & u_{j 2} & \cdots & u_{j r}\end{array}\right]$ 。

從語義角度再來看這個過程，SVD從文檔中學習出一種可以表示矩陣 $\mathbf{A}$ 的隱語義結構。SVD將原始文檔拆成 $r$ 個相互獨立的基本向量或者概念，每一個詞或者句子都可以用一個索引表示，比如 $v_{ix}$ 表示列向量 $\psi{i}$ 的第 $x^{'}$ 個值， $u_{jy}$ 表述行向量 $\varphi_{j}$ 的第 $y^{'}$ 個值。

相比於傳統的信息檢索技術，SVD更能捕捉、學習到詞之間的關係，所以可以更好的從語義層面上去對詞和句子進行聚類。舉個例子，我們來看這樣一組詞醫生、醫師、醫院、藥、護士，醫生、醫師是同義詞，而醫院、藥、護士都是和他們相關的詞語。那麼，醫生、醫師這兩個詞出現的文本一定是相似的，而且很大概率也會出現醫院、藥、護士這些詞。那麼在SVD過程中，醫生、醫師這兩個詞的r維奇異值向量也會很相似。

可以得到假設（結論）的是每一個奇異向量表示的就是一個文檔的關鍵主題（概念），向量中的每一個值，代表的則是這個主題（概念）在一個文檔中的重要程度。

3、摘要生成過程

所以，基於SVD的文檔摘要生成過程如下：

將文檔 D 分爲單句，組成句子集合，記爲S，記 $k=1$
構建詞-句子矩陣 A
對矩陣A進行SVD，得到奇異值矩陣 $\Sigma$ ，右奇異值矩陣，矩陣的列向量 $\psi_{i}=\left[\begin{array}{llll}v_{i 1} & v_{i 2} & \cdots & v_{i r}\end{array}\right]^{T}$ 就是句子 $i$ 的向量表示
選擇 $\mathbf{V}^{T}$ 的第 $k$ 個向量
從上面向量中選擇值最大的索引對應的句子，把它放到摘要結果中。
如果 $k$ 已經達到預設值，那麼終止，否則再跳回第四步重複執行。

4、個人理解

我們就來消化一下：

$\sigma_{i}$ 是什麼？作爲對角矩陣 $\Sigma$ 的元素， $\sigma_{i}$ 是由大到小排序的，表示的是concept對message的重要程度。也就是說，當SVD結束的時候，這個重要程度排序已經是一個事實了。
爲什麼要從 $k=1$ 開始選呢？其實這個 $k$ 對應的是 $\Sigma$ 對角矩陣的某一個 $\sigma_{i}$ , $k \leq r$ .我們要從最重要的開始，所以從1開始。
$\Sigma V^{T}$ 是什麼意思？我們知道 $\Sigma$ 是一個對角矩陣， $V^{T}$ 的每一列是句子向量，那麼這個矩陣相乘的結果，就是每一個句子的第一個元素的重要程度。就是說， $k=1$ 時，就是用 $\sigma_{1}$ 和 $n$ 個句子的第一個元素值相乘，即 $\sigma_{1}$ 去乘 $\left[\begin{array}{llll}v_{11} &v_{21}& v_{31} \cdots & v_{n1}\end{array}\right]$ ，如果 $\sigma_{1} \times v_{31}$ 最大，那麼我們就選第三個句子，放入最終的摘要結果中。

論文閱讀-基於LSA的摘要生成

文章目錄

簡介

1、句子向量化

1.1 權重選擇

1.1.1 局部權重

1.1.2 全局權重

2、SVD過程

3、摘要生成過程

4、個人理解

Spring Cloud 部署時如何使用 Kubernetes 作爲註冊中心和配置中心

RL的分類

RL中的關鍵概念

源碼閱讀-CVAE模型

CH2-NLG應用之【機器翻譯non-auto-regressive版】

閱讀筆記-ShowandTell

https://yachay.unat.edu.pe/blog/index.php?comment_area=format_blog&comment_component=blog&comment_co

linux以太網驅動總結