AI孫燕姿：so-vits-svc4.0歌曲翻唱工具整合包下載及安裝部署教程

原創

2023-08-29 23:57

最近AI孫燕姿大火，網上出現了很多高清的翻唱歌曲，可以說翻唱效果和原唱一模一樣，其實就是so-vits-svc這個工具的產物，它可以將一首歌的音色換成另外一個人的音色，就像這首歌被別人翻唱了一樣。大致實現原理就是，使用so-vits-svc這個工具先提取出你的聲音的音色訓練成模型，然後提取某個歌曲去音效的人聲，通過so-vits-svc將原歌曲人聲轉換成你的人聲，再配上音效，這樣這首歌就翻唱完成了。下面講一下本地部署so-vits-svc實現AI孫燕姿翻唱歌曲的具體操作流程。

首先安裝so-vits-svc，github項目地址：https://github.com/svc-develop-team/so-vits-svc，大神的話可以根據項目裏說明直接安裝。這裏我們使用一鍵安裝包，方便快捷，對新手小白上手比較簡單，網盤鏈接：https://pan.baidu.com/s/18lnAdTPO8GCen3gieHrnDw?pwd=q8mu 提取碼: q8mu，下面教程使用版本01的so-vits-svc一鍵啓動包，壓縮包下載到電腦上解壓。雙擊運行【啓動webui.bat】，即可啓動so-vits-svc操作頁面。

接下來準備高清聲音素材，如果能有錄音棚一樣錄製高清音頻環境的話最好，如果錄製的音頻不夠高清，可以使用uvr5來提取高清人聲，github項目地址：https://github.com/Anjok07/ultimatevocalremovergui，是什麼系統就下載什麼系統的應用。下載到電腦上之後安裝uvr5.

安裝完成後運行uvr5，選擇待處理音頻文件，選擇輸出文件夾，選擇只保留人聲，其它選項按如圖所示選擇即可。然後點擊【start processing】.這個操作會用到電腦的CPU和顯卡，不要一次性處理時長太長的音頻，比如時長超過20分鐘了，否則會導致顯存不足處理失敗。

聲音原聲處理完成後，音頻文件時長一般比較長，我們需要將音頻文件切割成5-10秒左右的短音頻，方便系統處理提高精確度與效率。我們使用audio slicer切割音頻文件，github項目地址：https://github.com/flutydeer/audio-slicer。左側導入待分割音頻文件，選擇輸出目錄，然後點擊右下角start開始分割。

然後在dataset_raw文件夾下新建一個文件夾，然後將剛纔切割好的聲音片段複製到這個文件夾內。

然後打開webui頁面，點擊訓練，然後點擊識別數據集按鈕，就可以識別出剛纔創建的文件夾了。

然後點擊【數據預處理】按鈕，對聲音進行預處理。這個需要一定的時間，這個過程CPU和GPU同時使用，處理完了沒有提示錯誤信息就可以了。然後點擊寫入配置文件，參數保持默認即可。

然後接下來就可以開始訓練了，點擊【從頭開始訓練】按鈕，就可以開始訓練模型了，這是一個漫長的過程。

如果出現memory錯誤提示，就是顯存不足，可以調低batch_size的值，打開app.py，按ctrl+F搜索batch_size，將後面value的值調小，6G顯存建議不超過4，值越大訓練速度越快，但是對顯存要求也越高。可以根據自己的顯存大小適當調整，如果你的顯存連6G都達不到的話建議不要在自己電腦上訓練模型了，可以看我的雲端部署教程，在雲GPU上訓練。