Latent Semantic Analysis(LSA)

原創

2020-06-30 22:42

对于一个term-document加权词频矩阵(如TF-IDF),如果他的规模m*n非常大，那么这些文本的存储还有计算聚类都会有不小的麻烦，LSA采用SVD分解将高维文本映射到低维的隐含语义空间，较好的解决了这个问题。

分解后的三部分都有解释，U*sigma的每行都是每个单词在隐含语义层的座标，V*sigma的每行都是每个文本在隐含语义层的座标，另外也有一种说法就是U，V分别为单词和文本在潜语义空间的座标，其实，因为sigma是一个对角矩阵，U*sigma空间只是对U空间的每一个轴做了一个伸展或者收缩。

当我们进行矩阵SVD分解后分别求出U，sigma，V，我们接下来能做什么呢？

1 计算任意两个文本的相似度，原来我我们要对两个长度为m的文本向量进行相似度计算，现在只需要对长度为r(r为sigma方阵的大小)的向量进行计算，只需要计算V*sigma矩阵的任意两行的相似度即可。

2 当新来一个文本时d，我们先求出它在隐含语义层的座标,然后用相似度可以寻找与他最相似的文本。

3 可以根据降维后的特征进行文本聚类，相似度计算按照cosine夹角即可。

4 也可以对单词计算隐含语义层的座标，然后进行相似度计算聚类等操作。

值得说明的一点是，LSA较好的解决了多个单词同一个意义的问题，但是并不能解决一个单词多个意思的问题，PLSA模型能解决这个问题。

發表評論

所有評論

還沒有人評論，想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.

相關文章

关于Vearch在大模型中使用的一些实践

背景這兩年來大模型及其熱門，不僅各大廠家的模型層出不窮，各類RGA、Agent應用也花樣繁多。這也帶火了一批基礎設施，比如Langchain、向量數據庫（也叫矢量數據庫-Vector Database）等。現在市場上的向量庫種類特別繁多

2024-05-28 11:56:14

一文深度剖析 ColBERT

近年來，向量搜索領域經歷了爆炸性增長，尤其是在大型語言模型（LLMs）問世後。學術界開始重點關注如何通過擴展訓練數據、採用先進的訓練方法和新的架構等方法來增強 embedding 向量模型。在之前的文章中，我們已經深入探討了各種類型的 e

2024-05-24 21:25:22

如何利用 Seaborn 实现高级统计图表

本文分享自華爲雲社區《使用 Seaborn 實現高級統計圖表從箱線圖到多變量關係探索》，作者：檸檬味擁抱。在數據科學和數據可視化領域，Seaborn 是一個備受歡迎的 Python 可視化庫。它建立在 Matplotlib 的基礎之上，

2024-05-20 10:59:16

京东广告研发——效率为王：广告统一检索平台实践

1、系統概述實踐證明，將互聯網流量變現的在線廣告是互聯網最成功的商業模式，而電商場景是在線廣告的核心場景。京東服務中國數億的用戶和大量的商家，商品池海量。平臺在兼顧用戶體驗、平臺、廣告主收益的前提推送商品具有挑戰性。京東廣告檢索平臺

2024-04-25 23:17:47

美团外卖基于GPU的向量检索系统实践

到家搜索業務具有數據量大、過濾比高等特點，爲了在保證高召回率的同時進一步提高檢索性能，美團到家搜索技術團隊與基礎研發機器學習平臺團隊基於GPU實現了支持向量+標量混合檢索的通用檢索系統，召回率與檢索性能均有較大提升。本文將介紹我們在GPU

2024-04-12 21:15:18

技术引领，策略升级：腾讯云与你共探数字金融新篇章

引言 2024 年 3 月 27 日下午，在北京騰訊總部，一場關於大模型與數據要素時代數字金融發展的深入討論火熱進行中。【TVP 走進騰訊：大模型與數據要素時代的數字金融發展論壇】是在騰訊二十年發展歷程和數字化實踐的基礎上，進一步探索

2024-04-03 23:09:31

基于UI交互意图理解的异常检测方法

美團到店平臺技術部/質量工程部與復旦大學周揚帆教授團隊開展了科研合作，基於業務實際場景，自主研發了多模態UI交互意圖識別模型以及配套的UI交互框架。本文從大前端質量保障領域的痛點出發，介紹了UI交互意圖識別的方法設計與實現。基於UI交互意

2023-11-24 21:20:29

技术人对抗焦虑的加减法

一、減法 - 通過分離課題提升專注度應該說絕大部分技術人都有焦慮感：“程序員35歲危機”、“成長太慢，工作5年了還是大頭兵”、“不小心搞了一個生產故障，感覺待不下去了”、“負責的這塊業務看起來沒前途” 等等。焦慮，是來自於未

2023-10-26 00:13:22

高基数类别特征预处理：平均数编码 | 京东云技术团队

一前言對於一個類別特徵，如果這個特徵的取值非常多，則稱它爲高基數（high-cardinality）類別特徵。在深度學習場景中，對於類別特徵我們一般採用Embedding的方式，通過預訓練或直接訓練的方式將類別特徵值編碼成向量。在經典

2023-08-30 12:13:47

燕千云第101号数字化员工来报道

我是甄知科技第101號員工，作爲甄知的第一位數字化員工正式上崗，我已經爲團隊服務了9個月零18天，主要的工作職責是爲甄知科技日常IT運維提供服務支持。 Part 1 燕小千是何許人也？甄知科技首位數字化員工大家好，我是燕千雲第10

2023-05-22 21:19:12

聚类（Clustering）之GMM

這一篇描述高斯混合聚類（Gaussian mixture models, GMM）。GMM假定數據滿足多個高斯分佈，可看作是K-means的一個推廣。此外，它還能通過貝葉斯信息準則（Bayesian Information Criterio

2022-04-30 12:19:23

用程序员思维优化核酸检测效率

1. 前言本文只是以計算機算法的角度，對核酸檢測效率的一些思考，期望爲廣大程序員對算法的應用帶來一些啓發與思考。由於實踐的複雜性(參考鏈接1)，本文中的方法並不一定能應用於實際核酸檢測過程，歡迎提出更好更優的想法一起探

2022-04-30 11:45:12

马斯克发推50张图文讲认知偏差，你中了几条？

埃隆·馬斯克（Elon Musk）突然“悟”了！他在推特上發了一條50張配有文字圖片的博文，還配上了一句意味深長的話：“（這些圖片內容）應該在人年輕的時候就教給他。” “狂人”馬斯克懊悔自己年輕時沒人教他就是以下長圖裏的“50種認知偏差”

2022-04-30 06:38:45

nCompass-网络流量基础知识及数据源

單擊返回：自學N-Compass之路 nCompass-網絡流量基礎知識及數據源 1. 流量分析基礎知識 1.1 常見的流量分析方式： SNMP：網管平臺通過主動式獲取設備接口流量信息。 Flow：網絡設備將穿越的數據流信息精簡

2021-12-25 21:45:43

数据分析方法论和分析方法

數據分析方法論營銷方面：4P，用戶使用行爲，STP理論，SWOT，等等管理方面：PEST，5W2H，生命週期，邏輯樹，金字塔模型，SMART原則，等等 4P理論從產品(Product)、價格(Price)、渠道(Place

2021-12-25 21:29:59

24小時熱門文章

最新文章

最新評論文章