CVPR2019 （一）

1. Expressive Body Capture: 3D Hands, Face, and Body from a Single Image

Abstract：To facilitate the analysis of human actions, interactions and emotions, we compute a 3D model of human body pose, hand pose, and facial expression from a single monocular image. To achieve this, we use thousands of 3D scans to train a new, uniﬁed, 3D model of the human body, SMPL-X, that extends SMPL with fully articulated hands and an expressive face. Learning to regress the parameters of SMPL-X directly from images is challenging without paired images and 3D ground truth. Consequently, we follow the approach of SMPLify, which estimates 2D features and then optimizes model parameters to ﬁt the features. We improve on SMPLify in several signiﬁcant ways: (1) we detect 2D features corresponding to the face, hands, and feet and ﬁt the full SMPL-X model to these; (2) we train a new neural network pose prior using a large MoCap dataset; (3) we deﬁne a new interpenetration penalty that is both fast and accurate; (4) we automatically detect gender and the appropriate body models (male, female, or neutral); (5) our PyTorch implementation achieves a speedup of more than 8×over Chumpy. We use the new method, SMPLify-X, to ﬁt SMPL-X to both controlled images and images in the wild. We evaluate 3D accuracy on a new curated dataset comprising 100 images with pseudo ground-truth. This is a step towards automatic expressive human capture from monocular RGB data. The models, code, and data are available for research purposes at https://smpl-x.is.tue.mpg.de.

爲了便於分析人的行爲、互動和情緒，我們從單張圖像中計算出人體姿勢、手姿勢和麪部表情的三維模型。爲了實現這一點，我們使用了數千次3D掃描來訓練一個新的、統一的人體3D模型SMPL-X，它用完全關節化的手和表情豐富的臉來擴展SMPL。在沒有配對圖像和三維ground truth 的條件下學習直接從圖像中迴歸SMPL-X的參數是一個挑戰。因此，我們採用SMPLify方法，對二維特徵進行估計，然後優化模型參數以確定特徵。我們在SMPLify上有幾個顯著的改進：（1）我們檢測與臉、手和腳相對應的二維特徵，並確定這些特徵的完整smpl-x模型；（2）我們使用大型mocap數據集訓練一個新的神經網絡姿勢先驗；（3）我們定義了一個新的快速且準確的穿透懲罰；（4）我們自動檢測性別和適當的身體模型（男性、女性或中性）；（5）我們的PyTorch實現了Chumpy方法8倍的速度。我們使用新的方法smplify-x，使smpl-x適用於爲受控圖像和自然環境中的圖像（in the wild）。我們評估了一個新的整理過後包括100張具有僞ground-truth的圖像數據集的三維精度。這是實現從單目RGB數據自動錶達人物造型捕獲的一個進步。這些模型、代碼和數據可在https://smpl-x.is.tue.mpg.de上獲得，以供研究之用。

2. Combining 3D Morphable Models: A Large scale Face-and-Head Model

paper

lsfm-code

Abstract：Three-dimensional Morphable Models (3DMMs) are powerful statistical tools for representing the 3D surfaces of an object class. In this context, we identify an interesting question that has previously not received research attention: is it possible to combine two or more 3DMMs that (a) are built using different templates that perhaps only partly overlap, (b) have different representation capabilities and (c) are built from different datasets that may not be publiclyavailable? In answering this question, we make two contributions. First, we propose two methods for solving this problem: i. use a regressor to complete missing parts of one model using the other, ii. use the Gaussian Process framework to blend covariance matrices from multiple models. Second, as an example application of our approach, we build a new face-and-head shape model that combines the variability and facial detail of the LSFM with the full head modelling of the LYHM. The resulting combined shape model achieves state-of-the-art performance and outperforms existing head models by a large margin. Finally, as an application experiment, we reconstruct full head representations from single, unconstrained images by utilizing our proposed large-scale model in conjunction with the FaceWarehouse blendshapes for handling expressions.

三維變形模型（3DMMs）是表示對象類的三維曲面的強大統計工具。在此背景下，我們發現了一個以前未受到研究關注的有趣問題：是否可以將兩個或多個3DMM組合起來：（a）使用可能只是部分重疊的不同模板構建；（b）具有不同的表示能力；（c）基於可能無法公開的不同數據集？在回答這個問題時，我們做出了兩項貢獻。首先，我們提出了兩種方法來解決這個問題：一，使用迴歸器和另一個模型來完成一個模型的缺失部分；二，使用高斯過程框架混合來自多個模型的協方差矩陣。其次，作爲我們方法的一個應用實例，我們構建了一個新的面部和頭部形狀模型，將LSFM的可變性和麪部細節與Lyhm的全頭部模型相結合。由此產生的組合形狀模型達到了最先進的性能，並大大優於現有的頭部模型。最後，作爲一個應用實驗，我們利用我們提出的大規模模型，結合FaceWarehouse的混合變形來處理表達式，從單一的、不受約束的圖像重建完整的頭部表示。

主要貢獻：1）一種方法，旨在融合基於形狀的3DMMs，以人臉和頭部爲例。特別地，我們提出了一種基於潛在形狀參數的迴歸方法，以及一種在高斯過程框架中使用的協方差組合方法。2）一種大規模人類頭部組合比例統計模型，（人類頭部包含了種族、年齡和性別方面）。該模型比任何其他現有的頭部變形模型都要精確得多——我們將此模型公之於衆，以造福研究界，包括有眼和無牙的版本。3）一個應用實驗，我們利用組合3dmm從無約束的單個圖像進行全頭部重建，同時利用FaceWarehouse混合變形處理面部表情。

整合現有的3DMM來增強自己的表達能力。

3. Self-supervised 3D hand pose estimation through training by ﬁtting

paper

code

Abstract：We present a self-supervision method for 3D hand pose estimation from depth maps. We begin with a neural network initialized with synthesized data and ﬁne-tune it on real but unlabelled depth maps by minimizing a set of dataﬁtting terms. By approximating the hand surface with a set ofspheres,we design a differentiable hand renderer to align estimates by comparing the rendered and input depth maps. In addition,we place a set of priors including a data-driven term to further regulate the estimate’s kinematic feasibility. Our method makes highly accurate estimates comparable to current supervised methods which require large amounts of labelled training samples, thereby advancing state-of-theart in unsupervised learning for hand pose estimation.

提出了一種基於深度圖的三維手部姿態估計的自監督方法。我們從一個用合成數據初始化的神經網絡開始，通過最小化一組數據定義項，在真實但未標記的深度圖上對其進行微調。通過將手部表面近似爲一組球體，我們設計了一個可區分的手部渲染器，通過比較渲染和輸入深度映射來對齊估計值。此外，我們還放置了一組先驗項，包括數據驅動項，以進一步調節估計的運動可行性。我們的方法使高精度的估計可與當前的監督方法相比，後者需要大量的標記訓練樣本，從而提高了無監督學習中的手位估計狀態。

4. Monocular Total Capture:Posing Face, Body and Hands in the Wild

paper

code

Abstract：We present the ﬁrst method to capture the 3D total motion of a target person from a monocular view input. Given an image or a monocular video, our method reconstructs the motion from body, face, and ﬁngers represented by a 3D deformable mesh model. We use an efﬁcient representation called 3D Part Orientation Fields (POFs), to encode the 3D orientations of all body parts in the common 2D image space. POFs are predicted by a Fully Convolutional Network, along with the joint conﬁdence maps. To train our network, we collect a new 3D human motion dataset capturing diverse total body motion of 40 subjects in a multiview system. We leverage a 3D deformable human model to reconstruct total body pose from the CNN outputs with the aid of the pose and shape prior in the model. We also present a texture-based tracking method to obtain temporally coherent motion capture output. We perform thorough quantitative evaluations including comparison with the existing body-speciﬁc and hand-speciﬁc methods, and performance analysis on camera viewpoint and human pose changes. Finally, we demonstrate the results of our total body motion capture on various challenging in-the-wild videos.

我們提出了第一種方法，從單眼視圖輸入中捕捉目標人物的三維總運動。對於一個圖像或單目視頻，我們的方法從三維可變形網格模型表示的身體、面部和手指重建運動。我們使用一種稱爲3D零件方向場（POF）的有效表示，來編碼公共二維圖像空間中所有身體零件的3D方向。POF是通過一個完全卷積的網絡以及聯合信心圖來預測的。爲了訓練我們的網絡，我們收集了一個新的三維人體運動數據集，在多視圖系統中捕獲了40個受試者的不同的全身運動。我們利用一個三維可變形人體模型，藉助於模型中的姿勢和形狀，從CNN輸出中重建整個身體姿勢。我們還提出了一種基於紋理的跟蹤方法來獲得時間相干運動捕獲輸出。我們進行了全面的定量評估，包括與現有的身體和手部特定方法的比較，以及對攝像機視角和人體姿勢變化的性能分析。最後，我們展示了我們在野外視頻中對各種挑戰的全身運動捕捉的結果。

5. FML:Face Model Learning from Videos

paper

Abstract：Monocular image-based 3D reconstruction of faces is a long-standing problem in computer vision. Since image data is a 2D projection of a 3D face, the resulting depth ambiguity makes the problem ill-posed. Most existing methods rely on data-driven priors that are built from limited 3D face scans. In contrast, we propose multi-frame video-based self-supervised training of a deep network that (i) learns a face identity model both in shape and appearance while (ii)jointly learning to reconstruct 3Dfaces. Our face model is learned using only corpora of in-the-wild video clips collected from the Internet. This virtually endless source of training data enables learning of a highly general 3D face model. In order to achieve this, we propose a novel multiframe consistency loss that ensures consistent shape and appearance across multiple frames of a subject’s face, thus minimizing depth ambiguity. At test time we can use an arbitrary number of frames, so that we can perform both monocular as well as multi-frame reconstruction.

基於單目圖像的人臉三維重建是計算機視覺中一個長期存在的問題。由於圖像數據是三維人臉的二維投影，由此產生的深度模糊性使問題不適定。大多數現有的方法都依賴於數據驅動，而不是有限的3面掃描。相比之下，我們提出了一種基於多幀視頻的深層網絡自監督訓練：（i）在形狀和外觀上學習人臉識別模型；（ii）共同學習重建三維人臉。我們的面部模型是使用從互聯網上收集的野生視頻片段的語料庫學習的。這種幾乎無窮無盡的訓練數據源使得學習一個高度通用的三維人臉模型成爲可能。爲了實現這一點，我們提出了一種新的多幀一致性損失，確保在一個主題的臉的多幀一致的形狀和外觀，從而最小化深度模糊。在測試時，我們可以使用任意數量的幀，這樣我們既可以執行單目重建，也可以執行多幀重建。

6. Self Supervised Learning of 3D Human Pose using Multi-view Geometry

paper

code

Abstract：Training accurate 3D human pose estimators requires large amount of 3D ground-truth data which is costly to collect. Various weakly or self supervised pose estimation methods have been proposed due to lack of 3D data. Nevertheless, these methods, in addition to 2D groundtruth poses, require either additional supervision in various forms (e.g. unpaired 3D ground truth data, a small subset of labels) or the camera parameters in multiview settings. To address these problems, we present EpipolarPose, a self-supervised learning method for 3D human pose estimation, which does not need any 3D ground-truth data or camera extrinsics. During training, EpipolarPose estimates 2D poses from multi-view images, and then, utilizes epipolar geometry to obtain a 3D pose and camera geometry which are subsequently used to train a 3D pose estimator. We demonstrate the effectiveness of our approach on standard benchmark datasets (i.e. Human3.6M and MPI-INF-3DHP) where we set the new state-of-the-art among weakly/self-supervised methods. Furthermore, we propose a new performance measure Pose Structure Score (PSS) which is a scale invariant, structure aware measure to evaluate the structural plausibility of a pose with respect to its ground truth. Code and pretrained models are available at https://github.com/mkocabas/ EpipolarPose

訓練精確的三維人體姿態估計器需要大量的三維地面真實數據，採集成本很高。由於缺乏三維數據，提出了各種弱監督或自監督的姿態估計方法。然而，這些方法，除了二維地面真值姿態外，還需要以各種形式（例如，未配對的三維地面真值數據、標籤的一小部分）進行額外的監控，或者多視圖設置中的相機參數。爲了解決這些問題，我們提出了一種三維人體姿態估計的自監督學習方法，它不需要任何三維ground-truth數據或相機外部信息。在訓練過程中，epiparpose從多視圖圖像中估計二維姿態，然後利用epiparpose幾何來獲得三維姿態和相機幾何，隨後用於訓練三維姿態估計器。我們證明了我們的方法在標準基準數據集（即human360萬和mpi-inf-3dhp）上的有效性，在這些數據集中，我們在弱/自監督方法之間設置了最新的技術水平。此外，我們還提出了一種新的性能度量-姿勢結構評分（PSS），它是一種尺度不變的、結構感知的度量，用於評估姿勢相對於其基本真實性的結構合理性。可在https://github.com/mkocabas/epiparpose上獲取代碼和預培訓模型。

7. Learning to Reconstruct People in Clothing from a Single RGB Camera

paper

code

Abstract:We present Octopus, a learning-based model to infer the personalized 3D shape of people from a few frames (1-8) of a monocular video in which the person is moving with a reconstruction accuracy of 4 to 5mm, while being orders of magnitude faster than previous methods. From semantic segmentation images, our Octopus model reconstructs a 3D shape, including the parameters of SMPL plus clothing and hair in 10 seconds or less. The model achieves fast and accurate predictions based on two key design choices. First, by predicting shape in a canonical T-pose space, the network learns to encode the images of the person into pose in variant latent codes, where the information is fused. Second,based on the observation that feed-forward predictions are fast but do not always align with the input images, we predict using both, bottom-up and top-down streams (one per view) allowing information to ﬂow in both directions. Learning relies only on synthetic 3D data. Once learned, Octopus can take a variable number of frames as input, and is able to reconstruct shapes even from a single image with an accuracy of 5mm. Results on 3 different datasets demonstrate the efﬁcacy and accuracy of our approach. Code is available at [2].

我們提出了一種基於學習的章魚模型，從一個單眼視頻的幾個幀（1-8）中推斷出人的個性化三維形狀，其中人以4到5毫米的重建精度移動，同時比以前的方法快幾個數量級。從語義分割圖像，我們的章魚模型重建一個三維形狀，包括參數的SMPL加上服裝和頭髮在10秒或更少。該模型基於兩個關鍵設計選擇，實現了快速、準確的預測。首先，通過預測典型T姿勢空間中的形狀，網絡學習將人的圖像編碼成不同的潛在代碼中的姿勢，在那裏信息被融合。其次，根據前饋預測速度快但並不總是與輸入圖像一致的觀察結果，我們預測使用自下而上和自上而下的流（每個視圖一個），允許信息向兩個方向流動。學習只依賴於合成的3D數據。一旦學會，章魚可以接受一個可變的幀數作爲輸入，並能夠重建形狀，即使從一個單一的圖像精度爲5毫米。3個不同數據集的結果證明了我們方法的有效性和準確性。代碼可在[2]上找到。

8. Unsupervised 3D Pose Estimation with Geometric Self-Supervision

paper

Abstract：We present an unsupervised learning approach to recover 3D human pose from 2D skeletal joints extracted from a single image. Our method does not require any multiview image data, 3D skeletons, correspondences between 2D-3D points, or use previously learned 3D priors during training. A lifting network accepts 2D landmarks as inputs and generates a corresponding 3D skeleton estimate. During training, the recovered 3D skeleton is reprojected on random camera viewpoints to generate new ‘synthetic’ 2D poses. By lifting the synthetic 2D poses back to 3D and re-projecting them in the original camera view, we can deﬁne self-consistency loss both in 3D and in 2D. The training can thus be self supervised by exploiting the geometric selfconsistency of the lift-reproject-lift process. We show that self-consistency alone is not sufﬁcient to generate realistic skeletons, however adding a 2D pose discriminator enables the lifter to output valid 3D poses. Additionally, to learn from 2D poses ‘in the wild’, we train an unsupervised 2D domain adapter network to allow for an expansion of 2D data. This improves results and demonstrates the usefulness of 2D pose data for unsupervised 3D lifting. Results on Human3.6M dataset for 3D human pose estimation demonstrate that our approach improves upon the previous unsupervised methods by 30% and outperforms many weakly supervised approaches that explicitly use 3D data.

我們提出了一種無監督學習方法來恢復三維人體姿勢從二維骨骼關節提取的單一圖像。我們的方法不需要任何多視圖圖像數據、三維骨骼、二維到三維點之間的對應關係，或者在培訓期間使用以前學習過的三維優先級。提升網絡接受二維地標作爲輸入，並生成相應的三維骨架估計。在訓練過程中，恢復的三維骨架被重新投射到隨機的相機視點上，以生成新的“合成”二維姿態。通過將合成的二維姿勢提升回三維並在原始相機視圖中重新投影，我們可以在三維和二維中消除自一致性損失。因此，通過利用提升重投影提升過程的幾何自一致性，可以自我監督訓練。我們表明，僅僅自我一致性並不足以生成真實的骨骼，但是添加一個二維姿勢鑑別器可以使升降機輸出有效的三維姿勢。此外，爲了從“野外”的二維姿勢中學習，我們訓練了一個無監督的二維域適配器網絡，以允許二維數據的擴展。這提高了結果，並證明了二維姿態數據在無監督三維提升中的實用性。三維人體姿態估計的人類360萬數據集的結果表明，我們的方法比以前的無監督方法提高了30%，優於許多明確使用三維數據的弱監督方法。

9. Fast and Robust Multi-Person 3D Pose Estimation from Multiple Views

paper

code

This paper addresses the problem of 3D pose estimation for multiple people in a few calibrated camera views. The main challenge of this problem is to ﬁnd the cross-view correspondences among noisy and incomplete 2D pose predictions. Most previous methods address this challenge by directly reasoning in 3D using a pictorial structure model, which is inefﬁcient due to the huge state space. We propose a fast and robust approach to solve this problem. Our key idea is to use a multi-way matching algorithm to cluster the detected 2D poses in all views. Each resulting cluster encodes 2D poses of the same person across different views and consistent correspondences across the keypoints, from which the 3D pose of each person can be effectively inferred. The proposed convex optimization based multi-way matching algorithm is efﬁcient and robust against missing and false detections, without knowing the number of people in the scene. Moreover, we propose to combine geometric and appearance cues for cross-view matching. The proposed approach achieves signiﬁcant performance gains from the state-of-the-art (96.3% vs. 90.6% and 96.9% vs. 88% on the Campus and Shelf datasets,respectively),while being efﬁcient for real-time applications.

本文討論了在幾個已校準的攝像機視圖中多人三維姿態估計的問題。這一問題的主要挑戰是確定噪聲和不完全二維姿態預測之間的交叉視圖對應關係。大多數以前的方法都是通過使用圖像結構模型直接在3D中進行推理來解決這一挑戰，這種模型由於狀態空間巨大而不適用。我們提出了一種快速而有力的方法來解決這個問題。我們的核心思想是使用多路徑匹配算法對所有視圖中檢測到的二維姿態進行聚類。每個生成的集羣對同一個人在不同視圖中的二維姿勢和關鍵點之間的一致對應進行編碼，從中可以有效地推斷出每個人的三維姿勢。提出的基於凸優化的多路徑匹配算法，在不知道現場人數的情況下，對漏檢和誤檢具有良好的魯棒性。此外，我們還建議結合幾何和外觀線索進行交叉視圖匹配。該方法通過最先進的技術（分別爲96.3%和90.6%以及96.9%和88%的校園和貨架數據集）獲得了顯著的性能提升，同時對實時應用非常有效。

10. Pushing the Envelope for RGB-based Dense 3D Hand Pose Estimation via Neural Rendering

paper

Estimating 3D hand meshes from single RGB images is challenging, due to intrinsic 2D-3D mapping ambiguities and limited training data. We adopt a compact parametric 3D hand model that represents deformable and articulated hand meshes. To achieve the model ﬁtting to RGB images, we investigate and contribute in three ways: 1) Neural rendering: inspired by recent work on human body, our hand mesh estimator (HME) is implemented by a neural network and a differentiable renderer, supervised by 2D segmentation masks and 3D skeletons. HME demonstrates good performance for estimating diverse hand shapes and improves pose estimation accuracies. 2) Iterative testing reﬁnement: Our ﬁtting function is differentiable. We iteratively reﬁne the initial estimate using the gradients, in the spirit of iterative model ﬁtting methods like ICP. The idea is supported by the latest research on human body. 3) Self-data augmentation: collecting sized RGB-mesh (or segmentation mask)-skeleton triplets for training is a big hurdle. Once the model is successfully ﬁtted to input RGB images, its meshes i.e. shapes and articulations, are realistic, and we augment view-points on top of estimated dense hand poses. Experiments using three RGB-based benchmarks show that our framework offers beyond state-of-the-art accuracy in 3D pose estimation, as well as recovers dense 3D hand shapes. Each technical component above meaningfully improves the accuracy in the ablation study.

這篇文章說的是從二維圖像建模三維手部模型。

由於固有的二維-三維映射模糊性和有限的訓練數據，從單個RGB圖像估計三維手部網格具有挑戰性。我們採用一個緊湊的參數化三維手模型來表示可變形和關節化的手網格。爲了實現對RGB圖像的模型化，我們從三個方面進行了研究和貢獻：1）神經渲染：在最近對人體的研究的啓發下，我們的手網格估計（HME）由神經網絡和可區分的渲染器實現，由2個分割遮罩和3D骨骼監控。結果表明，該方法具有較好的估計性能，能較好地估計各種形狀和形狀，提高了估計精度。2）迭代測試結果：我們的擬合函數是可微的。我們根據迭代模型確定方法（如ICP）的精神，使用梯度迭代重新確定初始估算。這一想法得到了最新人體研究的支持。3）自數據增強：採集大小的RGB網格（或分割掩模）-骨骼三聯體訓練是一個很大的障礙。一旦模型成功地被定義爲輸入RGB圖像，它的網格（即形狀和關節）是真實的，我們在估計的密集的手姿態上增加了視點。使用三個基於RGB的基準點進行的實驗表明，我們的框架在3D姿勢估計方面提供了最先進的精度，並且恢復了密集的3D手形。上述各技術組件都有意義地提高了燒蝕研究的準確性。

11. Neural Scene Decomposition(NSD) for Multi-Person Motion Capture

paper

code

介紹：從單個圖像中檢測人並恢復其姿勢

多人檢測、三維姿態估計、新的視圖合成

提出了一種多視圖自監督方法來訓練一個網絡，以產生一個層次化的場景表示，它是爲三維人體姿勢捕捉而量身定製的，但一般足以用於其他重建任務。它包括3個抽象層次、空間佈局（邊界框和相對深度）、實例分割（遮罩）和身體表示（編碼外觀和姿勢的潛在向量）。經過訓練的網絡就可以運行，不必事先爲人們提供位置。它的人物的數量是預先知道的。今後將把這個範圍擴大到更多的未知人數。

監督學習（Supervised Learning）

監督學習是使用已知正確答案的示例來訓練網絡的。

無監督學習（Unsupervised Learning）

無監督學習適用於你具有數據集但無標籤的情況。無監督學習採用輸入集，並嘗試查找數據中的模式。比如，將其組織成羣（聚類）或查找異常值（異常檢測）。

文獻中閱讀到的一些無監督的學習技術包括：

自編碼（Autoencoding）

主成分分析（Principal components analysis）

隨機森林（Random forests）

K均值聚類（K-means clustering）

12. GANFIT: Generative Adversarial Network Fitting for High Fidelity 3D Face Reconstruction

paper

code

從單張圖像重建3D人臉模型

本文從一個新的角度重新審視了基於優化的三維人臉重建，即利用Gans和人臉識別網絡等最新機器學習技術的力量分別作爲統計紋理模型和能量函數。這是Gans首次用於模型製作，它們顯示出高質量紋理重建的良好效果。該方法在定性和定量實驗中顯示了保持身份的高精度三維重建。

13. In the Wild Human Pose Estimation using Explicit 2D Features and Implicit 3D Representation

基於顯式二維特徵和中間三維表示的自然環境中人體姿態估計

paper

提出了一種新的基於單目彩色圖像的三維人體姿態估計深度學習體系結構。它是爲訓練符合這兩種情況的數據而設計的：1.帶有三維姿勢ground-truth標籤的真實圖像（這種數據比較少），2.只有二維姿勢標籤的自然環境中的圖像（這種數據比較容易獲取）。我們的算法在In-Studio H3.6M數據集上實現了最先進的性能，並且在更具挑戰性的MPI-INF-3DHP基準測試和自然環境圖像上明顯優於相關工作。

作爲具有地面實況3D姿勢的訓練數據，我們使用了H3.6M訓練集的組合，以及背景增強和未認證的MPI-INF-3DHP訓練集，總共包含350K個訓練圖像。與只有二維姿勢註釋的自然環境中訓練圖像一樣，我們使用MPII[1]和LSP[13][14]數據集，這些數據集通過隨機剪切、平移和旋轉圖像進行增強。

14. SimulCap: Single-View Human Performance Capture with Cloth Simulation

paper

人物動態細節繪製

本文提出了一種使用單臺RGBD相機進行實時自由視點人體性能動態細節（如布紋）繪製的新方法。我們的主要貢獻是：（i）服裝和身體的多層表示；（ii）基於物理的性能捕捉程序。我們首先使用多層表面表示法對錶演者進行數字化，其中包括未加工的身體表面和單獨的衣服網格。對於性能捕獲，我們對傳入幀依次執行骨架跟蹤、布料模擬和迭代深度調整。通過在性能捕捉管道中加入布料模擬，我們可以模擬真實的布料動力學和布料體相互作用，即使是在封閉區域，這在以前的捕捉方法中是不可能的。此外，通過將深度擬合設定爲一個物理過程，我們的系統在保持物理約束的同時產生與深度觀測一致的布料跟蹤結果。結果和評價表明了我們方法的有效性。我們的方法還支持新類型的應用程序，如布料重定目標、FreeViewPoint視頻渲染和動畫。

更高的真實性是因爲我們用於跟蹤的前向模型更接近真實世界中身體和衣服的變形情況：骨骼運動使身體變形，進而使其上的衣服變形。建模這個過程允許我們跟蹤布料和身體的相互作用。我們還證明了這可以將捕獲的衣服重新定位到不同的身體上。我們相信，這一新的捕獲方向將使我們能夠爲分析和合成生成真實的、完全的、可想象的多層虛擬人物，並將在虛擬現實/虛擬現實、虛擬試運行和遠程存在等方面打開許多應用。

儘管我們可以重建看似合理的布料動態，即使是對於相對寬鬆的衣服（如裙子），但在封閉區域實現的真實性受到模擬器質量的限制，並且跟蹤非常厚的衣服（如毛衣）仍然具有挑戰性。結合更先進的布料模擬器，並考慮到縫紉模式可能會增加實現的真實性。此外，捕捉手/臂和布之間的自然相互作用需要更精確的基於物理的碰撞模型。最後，拓撲結構的變化、面部、手部和軟組織不能用同尺重建，這仍然具有挑戰性。幸運的是，將衣服和身體分開，可以很容易地集成新的面部模型[36]、手模型[52]和軟組織模型[47]。其他潛在的未來方向包括：結合人體軟組織模型（如[47]）以忠實地捕捉布體相互作用，“從捕捉的結果中學習”數據驅動的服裝變形模型，以及推斷材料特性。

15. Detailed Human Shape Estimation from a Single Image by Hierarchial Mesh Deformation

paper

code

基於層次網格變形的單個圖像的人體形狀詳細估計

本文提出了一種從單個圖像中恢復人體詳細形狀的新框架。由於人體形狀、姿勢和視角等因素的變化，這是一項具有挑戰性的任務。以前的方法通常嘗試使用缺乏表面細節的基於參數的模板來恢復人體形狀。因此，由此產生的身體形狀似乎沒有衣服。本文提出了一種新的基於學習的框架，將參數模型的魯棒性與自由三維變形的靈活性相結合。我們使用深度神經網絡在層次網格變形（HMD）框架中重新定義3D形狀，利用來自身體關節、輪廓和每像素着色信息的約束。我們能夠在皮膚模型之外恢復人體的詳細形狀。實驗表明，該方法在二維IOU數和三維公制距離方面均優於現有的先進方法，取得了較好的精度。該代碼在https://github.com/zhuhao nju/hmd.git中提供。

16. Convolutional Mesh Regression for Single-Image Human Shape Reconstruction

單圖像人形重建的卷積網格迴歸

本文的目標是通過嘗試放鬆對參數模型（通常是SMPL[21]）的過度依賴來解決姿勢和形狀估計問題。雖然我們保留了SMPL網格拓撲結構，而不是直接預測給定圖像的模型參數，但我們的目標是首先估計三維網格頂點的位置。爲了有效地實現這一點，我們提出了一種圖形CNN體系結構，它對網格結構進行了顯式編碼，並對附着在網格頂點上的圖像特徵進行了處理。我們的卷積網格迴歸優於直接回歸模型參數的相關基線，用於各種輸入表示，而最終，它在基於模型的姿態估計方法中實現了最先進的結果。未來的工作可以集中於當前的侷限性（例如，恢復形狀中的遺漏細節），以及這種非參數表示提供的機會（例如，捕捉許多人體模型中缺失的方面，如手關節、面部表情、衣服和頭髮）。

17. RepNet: Weakly Supervised Training of an Adversarial Reprojection Network

paper

本文研究了基於單個圖像的三維人體姿態估計問題。長期以來，人類骨骼都是通過滿足重投影誤差來參數化和確定觀測結果的，而現在研究人員直接使用神經網絡從觀測結果中推斷出三維姿勢。然而，大多數這些方法忽略了這樣一個事實，即必須滿足再投影約束，並且對過擬合很敏感。我們通過忽略二維到三維的對應關係來解決過度配置問題。這有效地避免了簡單的訓練數據記憶，並允許弱監督訓練。建議的再投射網絡（repnet）的一部分使用對抗訓練方法學習從二維姿勢分佈到三維姿勢分佈的映射。網絡的另一部分估計攝像機。這樣就可以定義網絡層，將估計的三維姿態重新投影回二維，從而產生重新投影損失功能。我們的實驗表明，當應用於未知數據時，repnet可以很好地推廣到未知數據，並且優於最先進的方法。此外，我們的實現在標準臺式PC上實時運行。

我們的貢獻是：•一種基於二維重投影的三維人體姿態估計神經網絡（repnet）的對抗性訓練方法。•我們在沒有2D-3D通信和未知攝像頭的情況下監督訓練。•同步3D骨骼關鍵點和攝像頭姿態估計。•一個編碼包括骨長度和關節角度信息的無向鏈狀表示的層。•一個姿勢迴歸網絡，能很好地歸納出未知的人體姿勢和攝像頭。

18. Capture, Learning, and Synthesis of 3D Speaking Styles

音頻驅動的三維人臉動畫已經得到了廣泛的探索，但實現逼真，接近人的性能仍然沒有得到解決。這是由於缺乏可用的三維數據集、模型和標準評估指標。爲了解決這個問題，我們引入了一個獨特的4D人臉數據集，以60 fps的速度捕獲約29分鐘的4D掃描，並從12個揚聲器同步音頻。然後，我們在數據集上訓練一個神經網絡，該數據集根據面部運動來確定因素。學習的模型，voca（語音操作角色動畫）將任何語音信號作爲輸入，甚至用英語以外的語言輸入語音，並在現實中對各種成人面部進行動畫處理。在培訓期間，主題標籤上的調節允許模型學習各種現實的說話風格。voca還提供動畫師控件，以在動畫期間更改說話風格、身份相關的面部形狀和姿勢（即頭部、下頜和眼球旋轉）。據我們所知，voca是唯一一個現實的三維面部動畫模型，很容易適用於不重定目標的看不見的對象。這使得voca適合於遊戲中的視頻、虛擬現實中的虛擬人物，或者任何不預先知道演講者、演講人或語言的場景。我們在http://voca.is.tue.mpg.de上提供了用於研究的數據集和模型。

19. Learning to Regress 3D Face Shape and Expression from an Image Without 3D Supervision

學習在沒有3D監控的情況下從圖像中迴歸3D人臉形狀和表情

code

paper

爲了訓練一個沒有任何二維到三維監控的網絡，我們提出了環網，它從一個圖像學習計算三維人臉形狀。我們的關鍵觀察是，無論表情、姿勢、燈光等如何，每個人的面部形狀在圖像中都是恆定的。Ringnet利用一個人的多個圖像並自動檢測二維面部特徵。它使用了一種新的損失，當不同的人的身份相同和不同時，它鼓勵臉型相似。用火焰模型表示人臉，實現了人臉的不變性。一旦訓練，我們的方法採取一個單一的圖像和輸出參數的火焰，可以很容易地動畫。此外，我們還創建了一個新的人臉數據庫，“不太野生”（現在），其中包括各種條件下受試者的3D頭部掃描和高分辨率圖像。我們評估了公開可用的方法，發現Ringnet比使用3D監控的方法更準確。數據集、模型和結果可在http://ringnet.is.tuebingen.mpg.de上獲得，以供研究之用。

20. Learning 3D Human Dynamics from Video

從一個行動中的人的圖像，我們可以很容易地猜出這個人在過去和未來的三維運動。我們提出了一個框架，通過對圖像特徵的時間編碼，類似地從視頻中學習人類三維動態的表示。從單個圖像中，我們的模型可以恢復當前的三維網格以及其過去和將來的三維運動。我們的方法是這樣設計的，它可以通過半監督的方式學習視頻與二維姿勢標註。我們通過訓練我們的模型，從現成的二維姿態檢測器中獲得僞ground-truth的二維姿態，來從互聯網獲取未標記數據源。我們的實驗表明，添加更多的僞ground-truth二維姿態視頻可以提高三維預測性能。我們對最近具有挑戰性的3D姿勢數據集進行了評估，並在不進行任何微調的情況下獲得了最先進的3D預測任務性能。

結果：

1）輸入視頻，可以得到動態的3D人物動作模型視頻輸出

2）輸入圖片，可以重建人物的三維模型

21. FaceGenderID: Exploiting Gender Information in DCNNs Face Recognition Systems

人臉識別：利用DCNNS人臉識別系統中的性別信息

本文討論了在人臉驗證系統中，性別作爲協變量的影響。儘管基於深度卷積神經網絡（DCNN）的預訓練模型（如VGG Face或Resnet-50）獲得了很高的性能，但它們在包含數百萬圖像的超大數據集上進行訓練，這些數據集在人口統計學方面存在偏見，如性別和種族。在其他中。在這項工作中，我們首先分析這些最先進的男女模特的獨立表現。我們觀察到兩個性別組的面部驗證表現之間存在差異。這些結果表明，由偏態模型得到的特徵受性別協變量的影響。我們提出了一種基於性別的訓練方法，以改進兩種性別的特徵表示，並發展這兩種方法：i）性別特定的DCNNS模型，以及ii）性別平衡的DCNNS模型。我們的研究結果表明，無論是單獨還是總體上，我們提出的方法都能顯著和一致地改善兩種性別的人臉識別性能。最後，我們宣佈了本文中提出的facegenderid dcnns模型的可用性（在github1），這可以支持進一步的實驗。

22. Livecap: Real-time Performance Capture from Single RGB Camera

輸入視頻可以得到動態的3D人物動作模型視頻輸出

paper

23. Directing DNNs Attention for Facial Attribution Classification using Gradient-weighted Class Activation Mapping

臉部屬性區分

這裏標記出嘴脣的位置

這個方法還可以標記出鼻子的位置等其他臉部位置

paper

24. Facial Soft Biometrics Detection on Low Power Devices

臉部分析

提出了一種新穎的CNN架構，適用於低功耗設備的實時實現，同時執行性別、年齡、種族、眼睛狀態、眼鏡等的檢測。該體系結構採用了MobileNet體系結構，並利用了各個生物特徵之間的相關性，與三種最先進的人臉分析系統相比，其性能相當，同時需要顯著降低的計算資源。

25. Learned Image Compression with Residual Coding（圖像壓縮）

26. A Compression Objective and a Cycle Loss for Neural Image Compression（神經圖像壓縮）

27. Image Colorization By Capsule Networks（黑白圖像上色）

首先將黑白圖像分割成小塊，分別通過網絡映射到CIE Lab 顏色空間，再從這個顏色空間映射到RGB圖像，最後拼起來。

28. Patch-based 3D Human Pose Refinement（三維姿態估計）

最先進的三維人體姿態估計方法通常是從一個向前運行的整個RGB圖像中估計姿態。在本文中，我們開發了一個後處理步驟，從身體部位補丁重新確定三維人體姿勢估計。使用局部補丁作爲輸入有兩個優點。首先，身體部位周圍的細節被放大到高分辨率，以便進行精確的三維姿勢預測。第二，它可以使部分外觀在姿勢之間共享，從而有益於罕見的姿勢。爲了獲得補丁的信息表示，我們探索了不同的輸入方式，驗證了將預測分割與RGB融合的優越性。我們證明，我們的方法始終提高了最先進的三維人體姿勢方法的準確性。

這個方法可以用在任何一個現有的先進技術上來調整並提高三維人體姿態的準確性

對於一張輸入照片，首先預測二維的關鍵點和分割圖，二維的關鍵點可以用於剪裁得到圖片的關鍵部位小塊和分割圖的關鍵部位小塊，這些剪裁出來的高分辨率細節圖可以通過我們的改進模型獲得這些身體部分的方位，再結合根據現有其他最先進方法的預測姿態，可以改進現有的姿態。

29. Event-based attention and tracking on neuromotphic hardware（神經硬件的注意和跟蹤）

30. MediaPipe: A Framework for Perceiving and Augmenting Reality

paper

MediaPipe是一個用於構建多模式應用機器學習管道的跨平臺框架

機器學習框架？

構建一個處理感知輸入的應用程序不僅僅需要運行一個ML模型。開發人員必須利用各種設備的功能；平衡資源使用和結果質量；並行運行多個操作並使用流水線；並確保時間序列數據正確同步。MediaPipe框架解決了這些挑戰。開發人員可以使用MediaPipe輕鬆快速地將現有和新的感知組件組合到原型中，並將它們推進到經過打磨的跨平臺應用程序中。開發人員可以配置一個使用MediaPipe構建的應用程序，以便有效地管理資源（CPU和GPU），以獲得低延遲性能，處理音頻和視頻幀等時間序列數據的同步，並測量性能和資源消耗。我們表明，這些特性使開發人員能夠專注於算法或模型開發，並將MediaPipe用作迭代改進其應用程序的環境，結果在不同的設備和平臺上都是可複製的。MediaPipe將在https://github.com/google/mediapipe上開放。

MediaPipe允許對任意數據類型進行操作，併爲流式時間序列數據提供本機支持。

MediaPipe由三個主要部分組成：（1）感官數據推理框架；（2）一套性能評估工具；（3）可重用推理和處理組件的集合。

舉的例子是object detecting 和

31. Learning-Based Image Compression using Convolutional Autoencoder and Wavelet Decomposition（圖像壓縮）

32. On-Device AR with Mobile GPUs

本文研究了產生圖像的實時處理技術，特別是在使用圖形處理單元的設備上。討論了移動設備上圖像處理的問題和侷限性，並通過Canny邊緣檢測的可編程着色實現，測量了一系列設備上圖形處理單元的性能。

33. BlazeFaces: Sub-millisecond Neural Face Detection on Mobile GPUs

34. Real-time Facial Surface Geometry from Monocular Video on Mobile GPUs

我們提出了一個基於端到端神經網絡的模型，用於從AR應用的單相機輸入中推斷人臉的近似三維網格表示。468個頂點的相對密集網格模型非常適合於基於面的AR效果。該模型在移動GPU上具有超實時推理速度（100-1000+fps，取決於設備和模型變量），預測質量高，可與同一圖像的人工註釋差異相媲美。

35. Real-time Hair segmentation and recoloring on Mobile GPUs

我們提出了一種基於神經網絡的頭髮分割的新方法，從一個攝像頭輸入專門設計的實時，移動應用程序。我們相對較小的神經網絡產生了一個高質量的頭髮分割面膜，非常適合AR效果，例如虛擬頭髮重新着色。該模型在移動GPU（30-100+fps，取決於設備）上實現了高精度的實時推理速度。我們還提出了一個非常現實的頭髮脫色方案。我們的方法已經部署在主要的AR應用程序中，並被數百萬用戶使用。

36. High-Quality AR Lipstick Simulation via Image Filtering Techniques

本文提出了一種新的AR口紅模擬技術，產生高品質的視覺效果。它的設計強調了簡單性和使用現有的圖像過濾技術。由於其獨特的性質，所提出的技術可以由軟件工程師和視覺設計師實現。我們的方法在各種膚色和照明條件下都很穩健。它在現代中高端智能手機上達到720p分辨率的實時性能。

37. Nail Polish Try-on: Realtime Semantic Segmentation of Small Objects for Native and Browser Smartphone AR Applications

指甲油試塗（在智能手機上實現小對象的語義分割）

38. Lightweight Mobile Remote Collaboration using Mixed Reality（遠程協作）

39. Human Hair Segmentation In The Wild Using Deep Shape Prior（頭髮分割）

40. Towards Scalable Sharing of Immersive Live Telepresence Experiences Beyond Room-scale based on Efficient Real-time 3D Reconstruction and Streaming

基於高效的實時3D重建和流媒體，實現超出室內規模的沉浸式實時遠程呈現體驗的可擴展共享

我們提供了一個框架，用於爲任意大小的環境中的遠程用戶組共享身臨其境的實時遠程呈現體驗。我們的框架建立在本地環境（由人或機器人）的RGB-D數據捕獲的基礎上，涉及實時3D重建，可擴展數據流和可視化，以適度的帶寬要求和低延遲，同時保留視覺的多個遠程用戶當前實時重建方法的質量。

41. Lightweight Real-time Makeup Try-on in Mobile Browsers with Tiny CNN Models for Facial Tracking（手機模擬上妝）

42. HoloPose: Holistic 3D Human Reconstruction In-The-Wild

可以根據視頻生成動態的三維人體造型

我們介紹了HoloPose，一種整體3D人體重建方法。我們首先介紹一個基於部件的3D模型參數迴歸模型，它允許我們的方法在自然圖像上操作，優雅地處理嚴重的遮擋和大的姿勢變化。我們進一步訓練包括2D，3D和密集姿勢估計的多任務網絡以驅動3D重建任務。爲此，我們引入了一種迭代細化方法，該方法將基於模型的2D / 3D關節位置和DensePose三維估計與CNN提供的基於圖像的對應物進行對齊，實現基於模型，全局一致性和高空間精度的底部 CNN處理。我們驗證了我們對具有挑戰性的基準測試的貢獻，表明我們的方法允許我們獲得準確的關節和3D表面估計，同時以超過10fps的速度運行。有關我們的方法的更多信息，包括視頻和演示，請訪問http://arielai.com/holopose。

43. Efficient 2.5D Hand Pose Estimation via Auxiliary Multi-Task Training for Embedded Devices（手部位姿）

包括：2D手部關節點估計，再根據深度傳感器捕獲的深度信息表示成2.5D

44. Disguised Faces in the Wild

一個包含了僞裝的人臉的數據集人臉識別

45. Face Hallucination Revisited: An Exploratory Study on Dataset Bias

從低分辨率面部圖像重建高分辨率面部圖像

當代面部幻覺（FH）模型展示了從低分辨率（LR）面部圖像重建高分辨率（HR）細節的相當大的能力。這種能力通常是從相應的HRLR圖像對的例子中學習的，這些圖像對是通過人工下采樣HR地面實況數據而創建的。該下采樣（或降級）過程不僅定義了LR訓練數據的特徵，而且還確定了學習的FH模型最終能夠處理的圖像劣化的類型。如果真實世界LR圖像遇到的圖像特徵與訓練期間看到的圖像特徵不同，FH模型仍然可以表現良好，但實際上可能無法產生預期的結果。在本文中，我們研究了這個問題，並通過訓練數據的特點探討了引入FH模型的偏差。我們系統地分析了幾種FH模型在各種情況下的泛化能力，其中降級函數與訓練設置不匹配，並通過綜合降級以及現實生活中的低質量圖像進行實驗。我們製作了一些有趣的發現，可以深入瞭解FH模型存在的問題並指出未來的研究方向。

46. Multimodal 2D and 3D for In-the-wild Facial Expression Recognition

用於面部表情識別的多模2D和3D

在本文中，與僅關注2D信息的其他野外面部表情識別（FER）研究不同，我們提出了FER中2D和3D面部數據的融合方法。具體地，首先從圖像數據集重建3D面部數據。然後通過深度學習技術提取3D信息，該技術可以利用有意義的面部幾何細節進行表達。我們通過將3D面部的2D投影圖像作爲FER的附加輸入，進一步展示了使用3D面部數據的潛力。這些功能與典型網絡中的2D功能融合在一起。根據最近研究中的實驗程序，通過線性支持向量機（SVM）對級聯特徵進行分類。進一步進行綜合實驗，整合面部特徵用於表達預測。結果表明，該方法在RAF數據庫和SFEW 2.0數據庫上均實現了最先進的識別性能。這是第一次在野外FER的背景下呈現這種3D和2D面部模態的深度學習組合。

47. Single Image Based Metric Learning via Overlapping Blocks Model for Person Re-Identification

基於單圖像的度量學習通過重疊塊模型進行人員重新識別

行人再識別：是利用計算機視覺技術判斷圖像或者視頻序列中是否存在特定行人的技術。廣泛被認爲是一個圖像檢索的子問題。給定一個監控行人圖像，檢索跨設備下的該行人圖像。

在本文中，我們提出了一種新的基於塊的人重新識別方法，稱爲重疊塊模型（OBM），其中使用卷積特徵上的重疊分區的創新策略來構造多個重疊塊結構和新的重疊塊丟失函數。用於測量單個圖像中不同塊之間的差異，以確保更多塊可以帶來更多的區分信息和更高的性能。我們對Market-1501，CUHK03和DukeMTMC-reID數據集進行了徹底的驗證實驗，證明了我們提出的重疊塊模型可以通過添加多個重疊塊結構和重疊塊丟失來有效地提高網絡的識別性能。

48. Attention-guided Network for Ghost-free High Dynamic Range Imaging

由移動物體或未對準引起的重影僞像是動態場景的高動態範圍（HDR）成像中的關鍵挑戰。先前的方法首先在合併它們之前使用光流注冊輸入的低動態範圍（LDR）圖像，這些圖像容易出錯並且導致結果中的重影。最近的一項工作試圖通過具有跳過連接的深度網絡繞過光流，但是仍然存在嚴重移動的重影僞像。爲了避免來源的鬼影，我們提出了一種新穎的注意力引導端到端深度神經網絡（AHDRNet）來產生高質量的無鬼HDR圖像。與先前直接堆疊LDR圖像或用於合併的特徵的方法不同，我們使用注意模塊來引導根據參考圖像的合併。注意模塊自動抑制由未對準和飽和引起的不期望的分量，並增強非參考圖像中期望的精細細節。除了注意模型之外，我們還使用擴張的殘餘密集塊（DRDB）來充分利用分層特徵，並增加感知區域以消除丟失的細節。所提出的AHDRNet是一種非基於流的方法，它還可以避免由光流估計誤差產生的僞像。對不同數據集的實驗表明，所提出的AHDRNet可以實現最先進的定量和定性結果。

49. Sea-thru: A Method for Removing Water from Underwater Images

從水下照片移除水

50. Attentive Feedback Network for Boundary-Aware Salient Object Detection

目標檢測（注意邊界的細節）

CVPR2019 （一）

1. Expressive Body Capture: 3D Hands, Face, and Body from a Single Image

2. Combining 3D Morphable Models: A Large scale Face-and-Head Model

3. Self-supervised 3D hand pose estimation through training by ﬁtting

4. Monocular Total Capture:Posing Face, Body and Hands in the Wild

5. FML:Face Model Learning from Videos

6. Self Supervised Learning of 3D Human Pose using Multi-view Geometry

7. Learning to Reconstruct People in Clothing from a Single RGB Camera

8. Unsupervised 3D Pose Estimation with Geometric Self-Supervision

9. Fast and Robust Multi-Person 3D Pose Estimation from Multiple Views

10. Pushing the Envelope for RGB-based Dense 3D Hand Pose Estimation via Neural Rendering

11. Neural Scene Decomposition(NSD) for Multi-Person Motion Capture

12. GANFIT: Generative Adversarial Network Fitting for High Fidelity 3D Face Reconstruction

13. In the Wild Human Pose Estimation using Explicit 2D Features and Implicit 3D Representation

Spring Cloud 部署時如何使用 Kubernetes 作爲註冊中心和配置中心

KubeKey 部署 K8s v1.28.8 實戰

機試準備Day2 01揹包和完全揹包 hihocoder1038 1043

3DDFA

CVPR2019 （一）

準備機試Day1-01 bfs+最小生成樹 poj3026

pytorch 多線程遇到的問題

https://yachay.unat.edu.pe/blog/index.php?comment_area=format_blog&comment_component=blog&comment_co

linux以太網驅動總結