[nlp] LSA——latent semantic analysis潛在語義分析

參考：https://en.wikipedia.org/wiki/Latent_semantic_analysis
**分佈假設：**具有相似分佈的語言項目具有相似的含義。

一、推導

建立document-term matrix 術語文檔矩陣。

現在是點積 ${\ {t}} _ {i} ^ {T} {\ {t}} _ {p}$ 兩個詞向量之間的相關關係 給出了 文檔集中詞之間的相關性。

同樣，矩陣 ${\ X ^ {T} X}$ 包含所有文檔向量之間的點積，並賦予它們與以下項的相關性： ${\ {\ {d}} _ {j} ^ {T} {\ {d}} _ {q} = {\ {d}} _ {q} ^ {T} {\ {d }} _ {j}}$

存在一個分解 X 這樣 U 和 V 是正交矩陣，Σ 是對角矩陣。這稱爲奇異值分解（SVD）：

$X = U \ {Σ} V ^ {T}$

已知 ΣTΣ 和 ΣΣT 是對角線，U 是XXT的特徵向量組成的矩陣（特徵向量是列），而V是XXT的特徵向量組成的矩陣（特徵向量是列）。而這兩者含有相同的特徵值。

${\sigma _{1},\dots ,\sigma _{l}}$ 稱爲奇異值， ${ }u_{1},\dots ,u_{l}$ 稱爲左奇異值， $v_{1},\dots ,v_{l}$ 稱爲右奇異值。

找到奇異值中的一個σ（k），使得對應的X（k）與X的誤差最小。（這裏我用F範數代表誤差）。

$min ||X_{k}-X|| _{F}$
$X_ {k} = U_ {k} \ Σ_ {k} V_ {k} ^ {T}$

$Σ_ {k}{\hat{\ {t}}} _ {p}$

看到有關文檔 j 和 q 是在低維空間中通過比較向量 ${ \ Σ_ {k}{\hat{\ {d}}} _ {j}}$ 和 ${ \ Σ_ {k}{\hat{\ {d}}} _ {q}}$ (通常由余弦相似性)。（其中dk 可以理解爲Xk）
比較 i 和 p 通過比較向量 $Σ_ {k}{\hat{\ {t}}} _ {i}$ 和 $Σ_ {k}{\hat{\ {t}}} _ {p}$ 。注意， ${\hat{\ {t}}}$ 現在是一個列向量。
文檔和術語向量表示可以使用傳統的聚類算法(如k-means)和相似度度量(如cos)進行聚類。
給定一個查詢，將其視爲一個迷你文檔，並將其與低維空間中的文檔進行比較。

發表評論

所有評論

還沒有人評論，想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.

[nlp] LSA——latent semantic analysis潛在語義分析

一、推導

[nlp] 卷積運算

[機器學習] 特徵抽取——LDA線性判別分析（Linear Discriminate Analysis）

[linux] 解壓縮

[nlp] scikit-learn 樸素貝葉斯類庫概述——GaussianNB，MultinomialNB，BernoulliNB

[cv] 模塊cv2的用法

Mac下配置sublime實現LaTeX

https://yachay.unat.edu.pe/blog/index.php?comment_area=format_blog&comment_component=blog&comment_co

linux以太網驅動總結