CVPR-2020筆記 | 文末送書

目錄
(.)中的數字表示數量。

教程(4)
獲獎論文摘要(3)
可控圖像合成(2)
不平衡樣本處理(2)
多任務學習(1)
表示學習(2)
自我監督學習(2)
半監督學習(2)
弱監督學習(用於語義分割)(3)
目標檢測(2)
v知識提煉(三)
數據擴充(4)
優化(3)
評價與概括(3)
不確定度估計(3)
[Tutorial | Sun.] How to write a good paper? — Bill Freeman (MIT, Google)
視頻：(https://www.youtube.com/watch?v=W1zPtTt43LI&t=467s)
題目：如何寫一篇好論文
爲什麼它很重要？一篇有創意的，原創的，非常強的論文會比那些還可以的、糟糕的論文更影響你的職業生涯：讓你的努力變得有價值。
陳述你的問題，讓讀者知道你解決的問題是什麼；其他的解決方案是什麼，爲什麼其它方案不行；解釋你自己的解決方案以及爲什麼它更好；用簡單的例子傳達主要思想；在實驗中進行合理的比較；最後總結一下你的成果會帶來什麼應用或貢獻，或者它如何改變我們處理問題的方式；還有以“未來的工作”結束是個壞主意(即，我們想做，但未能在截止日期前及時做完)。
使你的論文易於閱讀(在匆忙中仍能學到要點)；寫出簡潔的句子(即，不要冗長！)；數字和標題應該是獨立的。
積極的語調-要和藹可親：不要過度推銷，隱藏缺點和貶低他人的工作；誠實地指出侷限性。
一個好標題很重要。
會議期刊拒絕論文的理由：沒有兌現論文的承諾；遺漏重要參考文獻；太多或令人難以置信的結果；寫得不好；陳述不正確；寫得很好但卻枯燥乏味的論文；雖然新穎精彩容易指出缺點的論文。
好的寫作就是重新寫作。所以要早點開始寫論文。
[Tutorial | Sun.] All You Need to Know About Self-Driving by Uber ATG
鏈接：(http://www.allaboutselfdriving.com/)
題目：由Uber ATG提供你想了解的關於自動駕駛的信息
本教程涵蓋了自動駕駛管道中的主要技術組件，包括不同傳感器模式的數據預處理、三維物體檢測的感知、長期預測、行駛軌跡規劃、轉向和加速等控制以及車輛與車輛之間的通信。這裏我只記錄了傳感器的形態和感知。
傳感器模態和感知(3D物體檢測)
激光雷達(3D)：
點雲表示，如3D體素(3D卷積有效的特徵提取；昂貴的計算和內存消耗；CVPR'18的VoxelNet）：https://arxiv.org/abs/1711.06396
距離視圖(保留全範圍信息；由於3D信息丟失而導致鄰域不真實；CVPR'19的LaserNet)：https://arxiv.org/abs/1903.08701
鳥瞰圖(2D卷積的有效特徵提取；內存消耗昂貴；CVPR'19的PointPillars)：https://arxiv.org/abs/1812.04244
3D點集(精確定位；昂貴的計算和內存消耗；多尺度特徵的次優關鍵點；CVPR'19的PointRCNN)：https://arxiv.org/abs/1812.04244
這些表示大多是稀疏的，可以通過使用稀疏卷積網絡或稀疏塊網絡(CVPR'18)來加速。：https://arxiv.org/abs/1801.02108
攝像機(2D)：比激光雷達便宜。將2D輸入/特徵/輸出轉換爲3D，然後使用現有的探測器。
轉換爲3D輸出：2D關鍵點預測+3D盒子模板匹配=3D盒子輸出(性能不理想)；
轉換3D輸入：2D圖像+深度估計=“僞激光雷達”(SoTA基於圖像的3D感知；由於需要深度模型而產生的額外計算成本；ICLR'20的僞激光雷達++和CVPR'20的E2E僞激光雷達)：https://arxiv.org/abs/1906.06310與https://arxiv.org/abs/2004.03080
轉換到3D特徵：根據相機內部特性將2D特徵映射到3D(鳥眼)特徵(無需深度估計；深度模糊導致的3D特徵誤差；BMVC'19的正交特徵轉換)：https://arxiv.org/abs/1811.08188
傳感器融合-激光雷達+攝像機：融合可以在輸入/特徵/輸出中以級聯或並行的方式發生。
傳感器融合-雷達(幾何結構)+攝像機(性能無法與基於激光雷達的系統相匹配)；雷達(作爲速度)+激光雷達。請參閱arXiv'20的“Exploiting Radar for Robust Perception of Dynamic Objects”。
高清地圖：語義信息。主要用於運動規劃系統。幾何方面，請參見CoRL'18的HDNet（http://proceedings.mlr.press/v87/yang18b/yang18b.pdf?utm_source）；作爲rasters，請參閱WACV'20的Uncertainty-aware Short-term Motion Prediction of Traffic Actors for Autonomous Driving(https://arxiv.org/abs/1808.05819)；作爲車道圖(更直觀但更復雜的模型設計)，請參見CVPR'20的VectorNet（https://arxiv.org/abs/2005.04259）。

[Workshop | Mon.] Scalability in Autonomous Driving
題目：自動駕駛的可擴展性
鏈接：https://sites.google.com/view/cvpr20-scalability
第一名的解決方案報告令人印象深刻，他們花了2個月才獲得第一名。他們的系統中的許多組件似乎都得到了集中的優化，而且還應用了一些新的技巧。
[Keynote]Raquel Urtasun，Uber ATG的 Scalable Simulation for Self Driving
仿真可用於訓練和安全評估。完整的模擬包括狀態(參與者行爲)、幾何體(參與者和環境三維模型)和觀察(自動駕駛汽車感知的激光雷達和攝像機表示)。
狀態：ActorSim(http://makro.ink/actorsim/) (現實性和多樣性)。
幾何狀態+激光雷達傳感模擬：CARLA(https://carla.org/)(設計3D參與者資產耗時；環境多樣性有限；不切實際；CoRL'17)；Blensor(https://www.blensor.org/)(與CARLA的缺點相同；增強模擬激光雷達的真實感，但不是實時的，需要材料特性；ISVC'11)；數據驅動方法(收集真實世界傳感器數據和將渲染應用於模擬器的數據)：越野激光雷達(ICLR'18,https://www.youtube.com/watch?v=t5a6nxE9N1k)和AADS(昂貴且規模有限,https://arxiv.org/abs/1811.07112)；LiDARsim(解決上述缺點；Raquel等人的CVPR'2020,http://openaccess.thecvf.com/content_CVPR_2020/html/Manivasagam_LiDARsim_Realistic_LiDAR_Simulation_by_Leveraging_the_Real_World_CVPR_2020_paper.html)。
幾何體狀態+相機感測模擬：按模擬引擎分類，神經渲染(自動化但沒有照片級真實感；僅單傳感器視圖；無幾何體感知)和照片級真實感相機模擬(解決上述缺點；Rong等人的GeoSim，雖然尚未發佈，但GeoSim的結果看起來很好)。
[Keynote] Andrej Karpathy, Tesla

在生產中部署“HydraNet”：8個攝像頭連接着48個網絡；1000個不同的預測；70000個GPU。

用端到端鳥瞰預測代替傳統的圖像拼接。
特斯拉的可擴展性挑戰：在50多個標籤上反覆“大海撈針”(特殊情況)；模型的不確定性仍然非常具有挑戰性；駕駛時沒有高清地圖(不需要超時維護)。
Q：爲什麼不使用高清地圖？它們不是爲安全功能提供了強有力的先例嗎？爲什麼要從頭開始重建？
A：我們仍然使用高清地圖，但長期來看是不可擴展的，如果高清地圖沒有及時更新，模型可能會做一些蠢事。
[Tutorial | Mon.]IBM Research的 Zeroth Order Optimization
題目：IBM Research的0階優化
鏈接：https://sites.google.com/umich.edu/cvpr-2020-zoo
基於arXiv'20的“A Primer on Zeroth-Order Optimization in Signal Processing and Machine Learning”:https://arxiv.org/abs/2006.06224
和它的名字一樣，零階意味着不能從模型中獲取梯度信息，一階(Jacobian)和二階(Hessian)。
想法：ZOO使用“有限差分法”(或2點法來估計梯度），並使用現成的基於梯度的優化器來更新模型。
與貝葉斯優化(BayesOpt)相似的部分:都是處理黑箱優化問題的算法,而非可微的)。
與GPs的貝葉斯優化不同的是：GPs仍然需要一階信息來更新其核心參數，而ZOO則不需要。
與強化學習相似(RL中使用的策略梯度)：都使用估計的梯度來更新模型。
不同於強化學習的部分：強化學習仍然可以訪問模型的一階信息(即強化學習仍然需要模型的Jacobian更新其參數)。
使用ZOO的流行領域：對抗ML，如黑盒對抗***(“ZOO: Zeroth Order Optimization Based Black-box Attacks to Deep Neural Networks without Training Substitute"顯示基於ZOO的黑盒***可以與MNIST、CIFAR-10和ImageNet上的白盒***一樣有效)和模型預測解釋(類似於***)。也可以作爲超參數優化、RL策略搜索等算法的替代方案：https://arxiv.org/pdf/1708.03999.pdf
[Tutorial | Mon.] From NAS to HPO: Automated Deep Learning
[Tutorial | Mon.]從NAS到HPO：自動化深度學習
鏈接：https://hangzhang.org/CVPR2020/
介紹AutoGluon工具箱-張杭：https://youtu.be/XdaFprz3ECE

自動聯合超參數和網絡架構搜索(用戶仍然需要定義搜索空間)。兼容其他DL庫，如Pytorch！
工作流程：
(1)使用AutoGluon爲網絡、優化器等分配自定義搜索空間；
(2)將網絡和優化器傳遞給訓練函數。
(3) 把訓練功能傳遞給調度器，就可以開始了。
內置的超參數優化(HPO)(BayesOpt with GP)/NAS(ENAS，ProxylessNAS)/早期停止算法。HPO/早期停止算法在Cedric Archambeau的教程“Automated Hyperparameter and Architecture Tuning”中有介紹：https://www.youtube.com/watch?v=pB1LmZWK_N8&feature=youtu.be
AutoML for TinyML with One for All Network(ICLR'20)
鏈接：https://www.youtube.com/watch?v=fptQ_eJ3Uc0&feature=youtu.be
設備感知的NAS挑戰：工程的設計(爲不同的硬件平臺定製模型以達到最佳的準確性和效率的權衡可能相當昂貴)和昂貴的訓練資源。
主要思想：將傳統NAS的訓練(內環)和搜索(外環)分離，搜索後無需再訓練直接部署。

解決方案-“漸進收縮”(訓練階段)：爲了防止不同子網之間的“干擾”，它通過從全網到小子網逐步訓練，跨越分辨率、核尺寸、深度和寬度四個維度。