視頻對齊到音頻,首先尋找音視頻的首幀pts,音視頻的每一幀pts都減去音頻的首幀pts。
即音頻pts調整到從0開始,視頻調整到和音頻同時開始。
視頻調整:
1、預讀一幀,整個視頻的首幀pts調整爲0
2、每一幀的pts都減去音頻首幀pts,即調整爲從0開始,視頻晚於音頻開始就補齊
3、如果視頻相鄰兩幀出現重疊,或者出現負的pts,則丟幀
4、所有視頻幀的pts都改爲調整之後的
音頻調整:
1、每一幀都和調整後的音頻結束時間對比,有gap就補靜音,有overlay就丟幀
視頻對齊到音頻,首先尋找音視頻的首幀pts,音視頻的每一幀pts都減去音頻的首幀pts。
即音頻pts調整到從0開始,視頻調整到和音頻同時開始。
視頻調整:
1、預讀一幀,整個視頻的首幀pts調整爲0
2、每一幀的pts都減去音頻首幀pts,即調整爲從0開始,視頻晚於音頻開始就補齊
3、如果視頻相鄰兩幀出現重疊,或者出現負的pts,則丟幀
4、所有視頻幀的pts都改爲調整之後的
音頻調整:
1、每一幀都和調整後的音頻結束時間對比,有gap就補靜音,有overlay就丟幀
利用torchsummary觀察每一層的情況 1)按照方式 pip install torchsummary 2)