讀論文：Seeing isn’t Believing: Towards More Robust Adversarial Attack Against Real World Object Detecto

讀論文：Seeing isn’t Believing: Towards More Robust Adversarial Attack Against Real World Object Detectors — CCS2019

【說真的，這是我第一次寫文章，完全不會用啊，大哥！！！！！！】

Part Ⅰ: Abstract & Introduction

這篇論文主要講的是物理世界對抗樣本，在開頭Abstract 和 Introduction部分，作者主要爲了闡明攻擊 object detector( in real world ) 和攻擊 images classifier( in digital world )的區別，也論證了在物理層面上實現對抗樣本的攻擊是更難以實現的，因爲有着諸多的約束：
1.target object 與 detector的相對位置(角度、距離等)會時刻發生改變
2target object 所在的環境條件(背景、光線等)會時刻發生變化
3.受攻擊的模型是 object detector，是dynamic，不像images detector，是static。
4.detector在作出分類預測之前，還需要檢測whether there is an object。

針對以上所述，作者提出了兩種AEs

Part Ⅱ：Attack approach – HA

FIR(feature-interference reinforcement)
To generate AEs, most of the existing studies design an objective function or a loss function to minimize the di#erence between the deep learning model’s prediction value and the expected value. Since object detectors extract the high-dimensional features of the object and give predictions based on those extracted features, AEs can be enhanced by perturbing the original object’s features “earlier” in the hidden layers (i.e., before the output layer).
在DNN中間有着許多隱藏層，作者通過在設置object function，對比原始圖片和加了噪聲圖片的在隱藏層中的提出出來的feature map 之差，來optimize 噪聲。
Step ①：輸入原始圖片x 和加入噪聲的圖片x’，激活DNN中間隱藏層
Step ②：分別提取x和x’ 的中間隱藏層，並且提取target object所在那個區域的那一部分，記爲Qn和Q’n
Step ③：將提取出來的Qn和Q’n平均池化得到feature vector，v 和 v’
Step ④：用作者設計的loss function去measure兩者的difference

ERG(enhance realistic constrains generation)
the existing works is not enough. The reason is that we observed that object detectors have a certain “knowledge” to the background of the object and the object semantic. This “knowledge” make detectors be sensitive to the relationship of the object and different background as well as the object semantic integrity. More precisely, the former means whether the object is in the reasonable environment and whether this object is in the reasonable position, while the latter means whether the object appears to be in reasonable integrity.
作者想法很簡單，要想使得生成的對抗樣本在物理世界中更加魯棒更加有效，那麼在生成對抗樣本的過程中，就應該
儘可能地去模擬擬合現實環境。而且要攻擊object detector，就要更加知道它的習性。知己知彼，百戰百勝。
所以作者主要做了兩件事情：
1.把target object放在一個reasonable的環境中攻擊，如在Google上搜路邊的照片，把路標p在照片裏去進行攻擊
2.p也要p真一點，要把杆子pole給加上去
這麼做的動機來源於object detector對於背景和語義之間有相關的認識：
1.由於detector在訓練的時候，物體是包含在背景裏面的，所以detector多少會學到跟背景相關的至少，如這個物體和這個背景是一個固定搭配等等
2.同時detector對於對於物體的完整性也會敏感，比如沒有杆子的懸空的路標、沒有輪胎懸空的車輛都會覺得wired。
對比EOT(Expection over Transformation)算法去擬合真實環境，作者認爲在現實情況中是遠遠不夠的。因爲其即使在生成AEs的過程中加入了圖片翻轉等操作，其在現實中距離和角度的有效範圍都不高；二是沒有考慮到語義相關性和語義合理性的問題。

Part Ⅲ：Attack approach – AA

nested-AE 嵌套對抗樣本
作者受到的啓發來源於 YOLO-v1,2 到 YOLO-v3 的過渡。遠的物體看起來更小，近的物體看起來更大。於是YOLO-v3在設計的過程中use more than one scales(e.g., three scales for YOLO v3: big, medium, and small scale) to measure the scope of the objects，只要物體從這三個尺度任意一個尺度被檢測到，就算是檢測成功。同時，作者通過對比三種尺度，發現在“遠距離”“小物體”上更容易攻擊模型（針對AA），因爲這樣，在同一張照片上，物體佔更少的pixels。在這裏我的理解是，因爲AA是要把一個人眼看上去不像STOP的的路標欺騙detector讓它以爲是個STOP。如果湊太近的話，讓它看得太清楚，不就騙不了它了嗎？就好像我們總會有這樣的經歷：
走在路上，看到很遠的地方，有個很美很美的人兒，你以爲這就是你心目中的夢中女神（男神），然後在好奇心的驅使下，你越走越近，直到你看清她的樣子，才發現，噢，就這。嗯，大概就是這麼一個畫面。

作者也拿它製作的 AA對抗樣本做了實驗，整如上面提到的，一個物體，在近的時候看起來比較大，在遠的時候看起來比較小。
在實驗過程中，在遠的時候，整個對抗樣本都被detector識別出來，就是那個框框框住了整個對抗樣本。但是在近距離的時候，
可能是讓detector看得太清楚了，它並沒有把整個對抗樣本都識別成STOP路標，而是把這個假STOP路標中的某一塊當成了STOP，
也是就說，除了中間的那一塊，對抗樣本其他四周的部位基本對於detector來說是沒用的。這也印證了剛剛上面說到的：小的
物體更容易欺騙detector（AA），因爲它看得不清楚。我的理解是這樣的。
我們再來仔細觀察一下作者提供的AA對抗樣本：不知道你們有沒有感覺，反正我看的時候，我就
覺得這個路標像是一圈套着一圈，一圈套着一圈，一個STOP裏面還有一個STOP，一個STOP裏
面還有一個STOP
。如果不懂的話可以看看右邊的圖，那個是我通過幾次截屏得到的一個我桌面的
嵌套圖片。所以這也解釋得通爲什麼在近距離的時候，detector只截取了這個對抗樣本中間的一小
部分，因爲中間的一小部分又相當於一個小的STOP，所以就被欺騙了
。公式嘛…其實不太想寫，其實就兩個吧

Part Ⅲ：Attack approach – Style-customized AEs

這裏主要想講講那個 Shape-controlled AE，我覺得這個還是比較有意思的。作者的思路就是生成一個特定形狀的對抗樣本，比如心形啊，蘋果形啊。
作者設置生成AE的方程爲 Xadv + P * Mask，然後呢，那個Mask就是一個和X相同維度的01矩陣，然後在這個矩陣裏面，形狀所在的地方爲1，其餘地方爲0，然後這樣把這個方程代入生成的過程中，生成出來的對抗樣本就是特定的形狀。有點類似於這種。

Part Ⅳ：實驗結果分析

1.從數據結果上看

對於這個結果我講一下自己的見解，陰天的成功率大於晴天我覺得有很大一部分原因是因爲在晴天的時候由於太陽光的照射導致對抗貼紙上的一些色彩發生了變化，可能變得過於鮮豔或者怎樣，然後達不到數字圖像上模擬出來的效果，這也是物理對抗一個難點，因爲無可避免的環境因素的干擾。
而至於HA上，wide angle > narrow 是因爲對於原始情況（原始路標，原始正常的detector）來說，到了一個離路標很寬的角度，detector看到的路標本來就已經是變形的，所以識別出來的成功率也不高，如果再加上對抗貼紙的話，成功率就更低了。而對於AA來說，也是同樣的道理，到了一個很寬的角度，本來要識別出來的成功率都不高了，你要想一個fake路標appear出來，也是不容易的，所以對於AA來說 wide < narrow
在distance上，對於HA來說，long > short也是必然的，在遠距離的情況下，detector看到的路標本來就很小，要識別出來也是很考驗能力的，所以HA的成功率自然高，如果湊得很近，那麼detector就看得清楚，識別出來的成功率會高，那麼對抗攻擊的成功率就自然低了。而對於AA來說，湊得比較近，detector就看得比較清楚，那麼攻擊它的成功率就會高。

2.作者在第五部分Discussion中討論了語義合理性和語義完整性的影響
其實這裏我看了好久好久，真的看了好久好久，我一直沒搞懂，作者展示出來的數據，明明是在不合理的情況下的攻擊率會更高，在不完整的情況下攻擊率也會更高，但是爲什麼作者在ERG的時候就強調要把target object放在一個合理的background中，並且要給它加個杆保證其完整性。
我最後給了自己一個解釋就是：
對於背景合理性問題：放在不合理的背景中（室內），由於detector會對object和background之間的relationship比較敏感，所以當在一個室內環境下，detector就會在它曾經訓練過程中記下的室內物體中進行搜索，而不是更傾向於把它看作一個在戶外的路標。
對於完整性的問題，同樣的，detector看到一個沒有腿兒的路標，可能會把它看作是一個烙餅或者碟子。emmm，我覺得解釋有點牽強，但是，我也想不到更好的解釋了。

Part Ⅴ：Potential Defence

作者歸納出三種主流的防禦方法：
1.去除噪聲法；2.對抗訓練網絡法；3.用GAN去訓練網絡使得能夠識別哪些是真哪些是假
但是說白了，對抗訓練和GAN的過程是一樣的。所以我覺得第二點和第三點基本都差不多，然而，第二第三點都有個侷限性，攻擊者同樣地可以設置新的攻擊方法產生新的perturbation去繞過這些防禦。而對於第一種，第一種去除噪聲法只針對那種像散沙一般的噪聲，所以也沒什麼用。但是如果能把perturbation給破壞掉，使其失去完整性，說不定可以達到防禦的效果。

Part Ⅵ：最後附一張腦圖吧

雖然我知道，一般腦圖都不會看的哈哈哈哈，所以我放在最後面了。怎麼說呢
這是我這周看 CCS2019 Seeing isn’t Believing整理的筆記以及個人的一些見解
總體來說，這篇文章能發在CCS其含金量毋庸置疑，我最大的感受是，作者在提出攻擊方法的時候其實也不是提出很厲害的像CW-attack那樣的攻擊算法，而是通過仔細觀察真實物理情況和數字圖像上的不同，在加上針對object detector的弱點作出相對的操作。其實這是我第二次看這篇論文，感覺前幾個月第一次看的時候只看了皮毛。當然現在還是會有些地方不太懂，後面更多的是需要和別人討論。

還有就是，其實我是習慣在oneNote上做筆記的，但是呢，在陳一一的驅使下我嘗試了寫一下博客，實在是太多不會了，什麼設置字體大小，插入公式，調整表格，我太難了，等假期有空再來美化一下吧，歡迎評論區討論噢。

讀論文：Seeing isn’t Believing: Towards More Robust Adversarial Attack Against Real World Object Detecto