StyleSync 開源部分總結

https://github.com/guanjz20/StyleSync_PyTorch

這個是號稱最強的模型. 說百分之99擬合真人. 我們趕緊來學習.

首先權重和訓練是不開源的. 我也只能儘可能的根據發佈的代碼來看能學到什麼.

先說結論: 整體跟wav2lip百分之90相似. 都是視頻--->圖片--->抽取人臉landmark->每個圖片根據音頻生成新的圖片->ffmpeg把圖片變成視頻即可.

==========首先我們看inference.py

parser.add_argument('--img_size', type=int, default=256)======這裏跟wav2lip 的96比變大了. 所以結果demo看得出來明顯比wav2lip生成的分辨率高很多
face, affine_matrix = restorer.align_warp_face(img.copy(), lmks3=lmk3_, smooth=True) ==========這裏進行了人臉變形.
face = cv2.resize(face, (args.img_size, args.img_size), interpolation=cv2.INTER_CUBIC)
 然後人臉resize
然後他還使用了mask
face_masked = face.copy() * img_mask 對人臉以外部分進行了保護. 
pred = model(img_batch, mel_batch) # 預測新臉
pred = cv2.resize(pred, (x2 - x1, y2 - y1), interpolation=cv2.INTER_CUBIC) # resize回去
out_img = restorer.restore_img(img, pred, affine_matrix) # 逆仿射把人臉變回去.
#最後ffmpeg寫入視頻.
總結確實比wav2lip 加入很多細節處理. 預處理和後處理!!!!!可以借鑑!!!!!!!!!!
 
================stylesync_model.py   下面我們分析這個文件
 
audioConv2d  audio也用了conv計算.
加入了一些噪音好像
mask_n_noise. 後續的有時間看論文再找找有用的吸收洗手.
 
======================結束======================
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章