Facebook發佈神經蛋分離法,可從嘈雜環境中提取音視頻

分離混合分佈是機器學習和信號處理的長期挑戰,而Facebook近日提出的新方法似乎可以有效解決這一難題。

人類天生善於分離個別聲音和視覺效果,例如在擁擠的雞尾酒會上聽到別人的聲音,或者在動物穿過灌木叢時發現動物。但依賴於機器學習的應用程序通常很難完成這項任務。解決這一問題的監督方法,包括對每個來源的樣本進行培訓,以及假定大量的訓練數據都不一定能取得很好的效果,完全無監督的方法會使模型對混合信號源做出不準確的假設。

於是Facebook的研究人員提出了神經蛋分離法(Neural Egg Separation,簡稱NES),據官方解釋,這一方法的命名靈感來源於雞蛋,意思是像分離蛋清和蛋黃一樣把清晰的音視頻從模糊的信號中提取出來。

這是一種半監督方法,結合了訓練和估計的各個方面。在這一迭代方法中,系統通過將信號混合在一起並進行多個分析來分離已知和未知分佈。在此過程中,系統逐漸將更多已知信號注入混合信號中,同時模型在隔離和提取時不斷改進。實驗表明,NES明顯優於採用類似監督的其他方法,即使對使用全面監督的系統,NES方法也具有競爭力。

除了改善ML系統在逼真的雜亂和嘈雜條件下理解音頻和視覺輸入的能力之外,這種方法還可以通過應用增強人們隔離信號的自然能力。比如,可以應用在音樂會(或類似場景)中的音頻、視頻記錄,或者開發基於AR的應用,用來實時放大特定音頻源或視覺特徵。

論文地址:

https://research.fb.com/publications/neural-separation-of-observed-and-unobserved-distributions/

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章