压缩度量(矩阵映射)

原創

2020-06-16 01:51

# 压缩度量是一个数学概念，例如我们采用欧氏距离作为度量方法，对于任意的 ||xi-xj||>||f(xi)-f(xj)|| (xi 和 xj 为样本空间中的样本)

#场景如果我们的样本点之间距离很大，数据很稀疏的情况下，这种距离很大的计算是非常消耗资源的。我们不妨将空间的样本映射的更加紧凑点，这样计算资源的消耗也比较少。

import numpy as np

a = np.array([1, 1])

b = np.array([1, 6])

#我们需要用一个矩阵将向量集中起来，我们设矩阵为A ||a-b||>||Aa-Ab||

# 如何构建一个矩阵A？如果我们将a b 映射靠近他们的均值向量不就可以了？也就是A 将a,b 靠近(a, b)的均值向量

# 我们首先构建一个假的均值向量 m =0.5 * 1/2(a + b) + 0.5 * a + nose(一点点高斯噪音) 从几何数学来看这个点位于 a 和均值向量的正中间。 [a, b] = X, [m, m] = M AX = M -> A = MX^-1

X = np.array([[1, 1],

[1, 7]])

M = np.array([[1.1, 2.3],

[1.2, 2.1]])

# 有人说没必要啊你这还求逆矩阵这不是画蛇添足吗？是的但是我们告诉大家度量学习数据很多是有标签的，我们在NCA方法中我们就是求得A矩阵，利用标签信息使得相同标记得数据更加得紧凑。在我们这里多了一个限制条件就是度量得结果比原来向量的度量结果要小。

#关键是A矩阵的构成是一个很大的问题，这里我只给出了很画蛇添足的思路，但是中心思想是让数据更加紧凑，必然度量的结果会比之前小。

dist1 = np.linalg.norm(a - b)

dist2 = np.linalg.norm(M[0] - M[1])

print(dist1)

print(dist2)

發表評論

所有評論

還沒有人評論，想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.

相關文章

AI安全志：英国AI骗保事件增加300%！

最近，英國《衛報》報道稱，一些騙子正在利用人工智能照片編輯軟件篡改照片，以進行保險欺詐活動。這一發現令保險公司震驚，因爲這可能導致汽車保險費用飆升至歷史最高水平。安聯保險公司表示，從2021年至2023年期間，利用應用程序篡

2024-05-28 00:15:50

文心大模型免费辣，动手搓点啥庆祝一下吧

5月21日下午，百度智能雲宣佈文心大模型的兩款主力模型ENIRE Speed、ENIRE Lite全面免費，即刻生效。這兩款大模型都是今年3月剛剛發佈的，均支持8K和128k上下文長度。可以說，這是百度最新的模型

2024-05-24 12:13:22

站在岸上学不会游泳 | 算法校招生的高效成长总结

在這個由數據編織、由算法驅動的時代，AI大模型正成爲推動社會進步的重要力量。我們不僅是變革的見證者，更是推動者和塑造者。感謝零售UP技術人欄目的邀請，本文藉此機會回顧一下自己的算法之路上的一些故事和思考，希望能帶給讀者一些幫助。介紹自

2024-05-22 11:56:42

使用 Spring Cloud Alibaba AI 构建 RAG 应用

作者：姬世文背景介紹 RAG（Retrieval Augmented Generation）檢索增強生成（RAG）是一種用於將數據與人工智能模型集成的技術。在 RAG 工作流程中，第一步將文檔數據加載到矢量數據庫（例如 Redis）中。

2024-05-27 21:13:51

面向AI的开发：从大模型（LLM）、检索增强生成（RAG）到智能体（Agent）的应用

引言隨着人工智能技術的飛速發展，大型語言模型（LLM）、檢索增強生成（RAG）和智能體（Agent）已經成爲推動該領域進步的關鍵技術，這些技術不僅改變了我們與機器的交互方式，而且爲各種應用和服務的開發提供了前所未有的可能性。正確理解這三者

2024-05-24 23:57:39

噱头还是风口？剖析AI短剧出海的未来

導語 |去年以來，低成本、高回報的土味短劇在國內爆火，而這股風也成功地刮到海外。2024 年，越來越多的人把目光投向了擁有龐大市場的國外“藍海”，當人們還在高談闊論 Sora 是否顛覆影視行業的時候，AI 已經在出海短劇中大顯身手，那

2024-05-24 11:48:13

华为云受邀出席AICon2024 分享AI Agent在企业生产中的技术实践

近日， InfoQ在北京舉辦行業技術盛會——AICon全球人工智能開發與應用大會2024，華爲雲aPaaS首席架構師陳星亮受邀出席，和技術愛好者分享AI Agent在企業生產中的技術實踐。大模型技術發展浪潮下，AI Agent成爲新一

2024-05-24 10:58:18

昔日辉煌不再，PHP老矣，尚能饭否？

導語 | 近期 TIOBE 最新指數顯示，PHP 的流行度降至了歷史最低，排在第 17 名，同時，在年度 Stack Overflow 開發者調查報告中，PHP 在開發者中的受歡迎程度已經從之前的約 30% 萎縮至現在的 18%。“P

2024-05-23 23:48:42

2023全球DDoS攻击态势分析，与众多行业专家共议DDoS破局之道

近日，百度安全聯合華爲、天翼安全科技有限公司、聯通數科安全、Nexusguard、中國移動雲能力中心、中國移動卓望公司、清華大學共同發佈《2023年全球DDoS攻擊現狀與趨勢分析》（以下簡稱《報告》）。報告從DDoS攻擊態勢、殭屍網絡態勢、

2024-05-23 21:42:25

怎么使用Stable diffusion中的models

Stable diffusion中的models Stable diffusion model也可以叫做checkpoint model，是預先訓練好的Stable diffusion權重，用於生成特定風格的圖像。模型生成的圖像類型取決於訓

2024-05-28 21:38:55

一文深度剖析 ColBERT

近年來，向量搜索領域經歷了爆炸性增長，尤其是在大型語言模型（LLMs）問世後。學術界開始重點關注如何通過擴展訓練數據、採用先進的訓練方法和新的架構等方法來增強 embedding 向量模型。在之前的文章中，我們已經深入探討了各種類型的 e

2024-05-24 21:25:22

还能报名！风靡硅谷开发者的 Unstructured Data Meetup 即将登陆中国！

“最硅谷”的 Unstructured Data Meetup 即將來襲！衆所周知，AI 三要素包括：算力、算法和數據。數據的價值愈發凸顯，而其中非結構化數據更是備受關注。IDC 預測，到 2025 年，全球數據總量中將有超過 80% 的

2024-05-29 02:18:59

风控指南：国内车险欺诈呈现四大趋势

2024年4月11日，國家金融監督管理總局官網發佈國家金融監督管理總局關於《反保險欺詐工作辦法（徵求意見稿）》公開徵求意見的公告。《徵求意見》共6章、37條，明確反保險欺詐工作目標是建立“監管引領、機構爲主、行業聯防、各方協同”四位一體的

2024-05-23 12:16:45

五款扩展组件齐发 —— Volcano、Keda、Crane-scheduler 等，邀你体验

今年 3 月，KubeSphere 啓動了首屆擴展組件開發者訓練營，吸引了 60 名開發者報名。經過一個半月的密集培訓和實戰演練，這些開發者成功打造了五款創新的擴展組件，現已全部上架至 KubeSphere Marketplace，歡迎大家

2024-05-23 11:17:40

基于 Milvus + LlamaIndex 实现高级 RAG

隨着大語言模型（LLM）技術的發展，RAG（Retrieval Augmented Generation）技術得到了廣泛探討和研究，越來越多的高級 RAG 檢索方法也隨之被人發現，相對於普通的 RAG 檢索，高級 RAG 通過更深化的技術細

2024-05-22 21:25:18

24小時熱門文章

最新文章

最新評論文章