機器學習-相似度計算

原創

2020-02-25 12:21

在很多機器學習算法和任務中，經常需要度量兩個樣本或向量之間的距離或相似度，下面列出一些常見的度量方式及其應用：

1.常見的距離算法

　　　　1.1歐幾里得距離（Euclidean Distance）

基本上就是兩個點的空間距離，下面這個圖就能很明顯的說明他和餘弦相似度區別，歐式距離更多考慮的是空間中兩條直線的距離，而餘弦相似度關心的是空間夾角。

　　　　1.2曼哈頓距離（Manhattan Distance）

曼哈頓距離也稱爲城市街區距離(City Block distance)，也就是在歐幾里得空間的固定直角座標系上兩點所形成的線段對軸產生的投影的距離總和。

where $(\mathbf {p} ,\mathbf {q} )$ are vectors

\mathbf {p} =(p_{1},p_{2},\dots ,p_{n}){\text{ and }}\mathbf {q} =(q_{1},q_{2},\dots ,q_{n})\,

2.常見的相似度（係數）算法

　　　　2.1餘弦相似度（Cosine Similarity）

幾何中夾角餘弦可用來衡量兩個向量方向的差異，機器學習中借用這一概念來衡量樣本向量之間的差異。

where

A_{i}

and

B_{i}

are components of vector

A

and

B

respectively

　　　　2.2皮爾森相關係數（Pearson Correlation Coefficient）

上面是總體相關係數，常用希臘小寫字母 ρ 作爲代表符號。估算樣本的協方差和標準差，可得到樣本相關係數(樣本皮爾遜係數)。

$\operatorname {cov}$ is the covariance
$\sigma _{X}$ is the standard deviation of $X$
$\sigma_Y$ is the standard deviation of $Y$

　　　　2.3Jaccard相似係數（Jaccard Coefficient）

意思是兩個集合的交集除以並集，比如文本相似度可以用出現相同詞個數進行計算。

友情推薦：ABC技術研習社

爲技術人打造的專屬A(AI),B(Big Data),C(Cloud)技術公衆號和技術交流社羣。

發表評論

所有評論

還沒有人評論，想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.

相關文章

MATLAB實現高斯-克呂格投影反算

高斯投影(高斯-克呂格投影)的反算更新2020-06，將座標系統統一換爲WGS-84座標系，整理一下腳本函數高斯投影的反算是指由當地的局部座標系(x,y)轉換爲當地的地理座標系(B: 緯度, L: 經度)。由於之前的博文MA

2020-07-05 01:51:04

【代碼分享】TRL微波器件測量去嵌入校準–程序代碼

寫在前面由於研究需要，本人深入學習實踐了基於微波測試的器件仿真建模技術，至今九年有餘。回顧研究經歷，從最簡單的直通校準到嚴格的TRL校準，從普通的SAM焊接接頭到精密的V波段免焊接接頭，從0603封裝貼片電容的焊接固定到0201封裝貼片

2020-07-04 05:57:56

與排序後位置距離

阿里巴巴筆試題: 一個含有n個互不相同的整數的數組，任意一個數a[i]的現有位置i和它排序後的位置j的距離不超過k(即i-j的絕對值小於等於k)，2

2020-07-03 09:52:56

百度之星程序設計大賽試題（第一題解答）

NONE 算法實現： #include <iostream>int main(){ int i,j,k,n,data,tsum; n=0; //存儲整數能分解成多少組整數連加 pr

2020-06-30 19:55:16

【LeetCode】Search in Rotated Sorted Array II 解題報告

【題目】 Follow up for "Search in Rotated Sorted Array": What if duplicates are allowed? Would this affect the run-time

2020-06-28 05:56:21

【LeetCode】Substring with Concatenation of All Words 解題報告

【題目】 You are given a string, S, and a list of words, L, that are all of the same length. Find all starting indices of

2020-06-28 05:56:21

【LeetCode】Largest Number 解題報告

【題目】 Given a list of non negative integers, arrange them such that they form the largest number. For example, given

2020-06-28 05:56:21

位操作來輕鬆高效的解決問題

維基位操作是通過算術操作位或其他短於數據的數據段的操作。需要位操作的計算機編程任務包括低級設備控制，錯誤檢測和糾正算法，數據壓縮，加密算法和優化。對於大多數其他任務，現代編程語言允許程序員直接使用抽象而不是代表抽象的位。進行位

2020-06-28 05:16:14

LeetCode第三題的一個O(n)方法

題目： Given a string, find the length of the longest substring without repeating characters. Examples: Given “abcabc

2020-06-25 15:29:39

大數據系統-圖數據分析

圖數據分析技術流派：用於聯機事務圖的持久化技術（通常直接實時地從應用程序中訪問）。這類技術被稱爲圖數據庫，它們和“通常的”關係型數據庫世界中的聯機事務處理（Online Transactional Processing，OLTP

2020-06-23 14:03:32

基於混沌Logistic加密算法的圖片加密與還原

基於混沌Logistic加密算法的圖片加密與還原摘要混沌Logistic映射的理論混沌的基本概念Logistic映射方程混沌Logistic映射與其他加密算法介紹普通行列置亂加密算法普通置亂加密算法的流程算法分析像素點的RGB值縮

2020-06-23 01:08:11

nyoj144 小珂的苦惱

題目：點擊打開鏈接解體思路：看到ax+by=n就很容易聯想到ax+by=gcd(a,b). 這是擴展歐幾里得算法。擴展歐幾里得算法：對於不全爲0的a和b，一定有一個整數對且唯一使得ax+by=gcd(a,b), 那這裏a,b爲都不

_低头的麦穗

2020-06-22 22:17:34

nyoj 163Phone List-字典樹

題目大意：就是給一串電話號碼，問是否存在這種情況，一個號碼是另一個號碼的前綴！！！解題思路：字典樹(tire樹)，是一種極大節省空間的樹形結構，因爲所有具有相同前綴的會共享前綴，我對tire數的理解是，結點本身是不存信息，存信息是當

_低头的麦穗

2020-06-22 20:37:05

算法回鍋肉——快速排序

示例代碼純粹是爲了加深印象，選擇的目標語言有更便捷的實現方式，另外去掉了一些假設條件檢查。 #encoding:gbk Size = 20 arr = Array.new(Size) do #初始化待排序數組，隨機填寫元素 rand

薛定谔之死猫

2020-06-19 23:20:28

算法回鍋肉——快速排序（隨機）

示例代碼純粹是爲了加深印象，選擇的目標語言有更便捷的實現方式，另外去掉了一些假設條件檢查。 #encoding:gbk Size = 20 arr = Array.new(Size) do #初始化待排序數組，隨機填寫元素 rand

薛定谔之死猫

2020-06-19 17:20:29

24小時熱門文章

2020年上半年數據庫系統工程師考試

最新文章

最新評論文章