MMD ：maximum mean discrepancy

MMD：maximum mean discrepancy。最大平均差異。最先提出的時候用於雙樣本的檢測（two-sample test）問題，用於判斷兩個分佈p和q是否相同。它的基本假設是：如果對於所有以分佈生成的樣本空間爲輸入的函數f，如果兩個分佈生成的足夠多的樣本在f上的對應的像的均值都相等，那麼那麼可以認爲這兩個分佈是同一個分佈。現在一般用於度量兩個分佈之間的相似性。在[1]中從任意空間到RKHS上介紹了MMD的計算，這裏根據這個順序來介紹。
1.任意函數空間（arbitary function space）的MMD
具體而言，基於MMD（maximize mean discrepancy）的統計檢驗方法是指下面的方式：基於兩個分佈的樣本，通過尋找在樣本空間上的連續函數f，求不同分佈的樣本在f上的函數值的均值，通過把兩個均值作差可以得到兩個分佈對應於f的mean discrepancy。尋找一個f使得這個mean discrepancy有最大值，就得到了MMD。最後取MMD作爲檢驗統計量（test statistic），從而判斷兩個分佈是否相同。如果這個值足夠小，就認爲兩個分佈相同，否則就認爲它們不相同。同時這個值也用來判斷兩個分佈之間的相似程度。如果用F表示一個在樣本空間上的連續函數集，那麼MMD可以用下面的式子表示：

假設X和Y分別是從分佈p和q通過獨立同分布(iid)採樣得到的兩個數據集，數據集的大小分別爲m和n。基於X和Y可以得到MMD的經驗估計(empirical estimate)爲：

在給定兩個分佈的觀測集X,Y的情況下，這個結果會嚴重依賴於給定的函數集F。爲了能表示MMD的性質：當且僅當p和q是相同分佈的時候MMD爲0，那麼要求F足夠rich；另一方面爲了使檢驗具有足夠的連續性（be consistent in power），從而使得MMD的經驗估計可以隨着觀測集規模增大迅速收斂到它的期望，F必須足夠restrictive。文中證明了當F是universal RKHS上的（unit ball）單位球時，可以滿足上面兩個性質。
2.再生核希爾伯特空間的MMD（The MMD In reproducing kernel Hilbert Spaces）：
這部分講述了在RHKS上單位球（unit ball）作爲F的時，通過有限的觀測來對MMD進行估計，並且設立一些MMD可以用來區分概率度量的條件。
在RKHS上，每個f對應一個feature map。在feature map的基礎上，首先對於某個分佈p定義一個mean embedding of p，它滿足如下的性質：

mean embedding存在是有約束條件的[1]。在p和q的mean embedding存在的條件下，MMD的平方可以表示如下：

下面是關於MMD作爲一個Borel probability measures時，對F的一個約束及其證明，要求F：be a unit ball in a universal RKHS。比如Gaussian和Laplace RKHSs。進一步在給定了RKHS對應核函數，這個MMD的平方可以表示：

x和x’分別表示兩個服從於p的隨機變量，y和y‘分別表示服從q的隨機變量。對於上面的一個統計估計可以表示爲：

對於一個two-sample test, 給定的null hypothesis: p和q是相同，以及the alternative hypothesis: p和q不等。這個通過將test statistic和一個給定的閾值相比較得到，如果MMD大於閾值，那麼就reject null hypothesis，也就是兩個分佈不同。如果MMD小於某個閾值，就接受null hypothesis。由於MMD的計算時使用的是有限的樣本數，這裏會出現兩種類型的錯誤：第一種錯誤出現在null hypothesis被錯誤的拒絕了；也就是本來兩個分佈相同，但是卻被判定爲相同。反之，第二種錯誤出現在null hypothesis被錯誤的接受了。文章[1]中提供了許多關於hypothesis test的方法，這裏不討論。
在domain adaptation中，經常用到MMD來在特徵學習的時候構造正則項來約束學到的表示，使得兩個域上的特徵儘可能相同。從上面的定義看，我們在判斷兩個分佈p和q的時候，需要將觀測樣本首先映射到RKHS空間上，然後再判斷。但實際上很多文章直接將觀測樣本用於計算，省了映射的那個步驟。

reference
[1] A kernel two sample test
[2] Optimal kernel choice for large-scale two-sample tests
[3] Deep domain confusion: maximizing for domain invariance
[4] Learning transferable feature with deep adaptation nets
[5] Deep transfer network：Unsupervised domain adaptation
[6] Adaptive visual category models to new domains
[7] Geodesic flow kernel for unsupervised domain adaptation
[8] Transfer sparse coding for robust image representation

MMD ：maximum mean discrepancy

我真的從測試轉成了開發......

[oeasy]python020在遊戲中體驗數值自由_勇闖地下城_終端文字遊戲

docker啓動hub和Chrome node

解密遊戲神作

爲何我建議你學會抄代碼

從零手寫實現 nginx-06-文件夾內容的自動索引展示

面試官：說說Netty對象池的實現原理？

gdb入門筆記

c語言結構體的偏移、c++

筆記：harvesting discriminative meta objects with deep CNN features for scene classification

visual C++數字圖像處理類

自頂向下網絡術語翻譯一覽表（二）

Mac下配置sublime實現LaTeX

https://yachay.unat.edu.pe/blog/index.php?comment_area=format_blog&comment_component=blog&comment_co

linux以太網驅動總結