“聲音復刻”的黑科技,有它逃不開的靈魂拷問

口述 | 李秀林 (標貝科技聯合創始人&CTO)

採訪、編輯 | 黃臻曜

來源 | 36Kr

“聲音復刻”的黑科技,有它逃不開的靈魂拷問

 

語音交互以假亂真,已是顯性訴求

疫情期間,整個智能語音行業的表現算是比較好的,語音解決了很多非接觸(手動)人機交互的應用場景。比如聲控電梯、心理診斷問答資訊、疫情防護宣傳製作、商業街區寫字樓語音動態播報等。

像新出現的場景“非接觸的語音控制電梯”,和我們之前一直在使用的智能家居里的芯片組或者算法基本一致,將它們和電梯的控制按鈕集成後就能應用,難度不大。所以在疫情的催化下,只是需求量變多了,原來不用這些產品或者技術的公司開始考慮用到這些技術,以及增加了少量新的場景,但在應用難度上並沒有太大的挑戰。

但此次疫情讓人們看到了智能語音的市場空間、應用場景和巨大的市場價值,推進了語音技術與應用場景結合:

1、市場教育:以前習慣用手動操作,基於疫情期間,自身防護健康等角度出發,發現語音也是一個很簡單的交互體驗。

2、廣泛應用:疫情期間創造了很多強語音技術結合的場景。例如每天有大量疫情動態及防控等信息的通訊需求,通過語音合成技術,可以快速、規模化的將文本轉爲語音收取資訊,這部分的用戶數據增長能達到10倍、甚至幾十倍,我們也看到聲控電梯、外部監測體感語音報警場景大量出現。

3、技術發展呈現多樣融合的趨勢。智能語音解決“聽、說、懂”的問題,但應對疫情防護,不可能是單純的語音層面產品形態,而是配合圖像視覺、人臉識別、紅外體感等技術,來打造針對疫情一線的綜合防護與檢測產品。比如大屏體溫檢測、醫療機器人送藥問診查詢等應用。

這次疫情,對於很多公司來說也是一次考驗。有成熟的技術和解決方案的公司,就能夠快速落地,取得一些優勢。

以語音交互領域爲例,目前語音合成技術和語音識別技術,相對來說具有較高的成熟度,而語義理解相對來說還比較薄弱。我認爲,接下來行業對語音的探索不單會停留在“可用”上,還會考慮給用戶帶來更好的體驗。聲音在交互的時候,如何能給人帶來更自然、貼心、溫度,並達到以假亂真的體驗,這已經從一個潛在的訴求變成一個顯性的訴求。

“聲音復刻”是痛點還是癢點?

在疫情期間,我們看到出現了幾種情況:1、很多家長和孩子,因爲疫情無法上班、上學,也無法外出,居家的時間大幅增長,陪伴輔導孩子的任務驟增;2、有些家長由於支持抗疫或者受疫情影響無法返家,造成春節假期也無法團聚,相互思念;3、有些疫情嚴重地區,出現感染新冠肺炎的患者死亡的現象,爲自己或者自己的親人留下更多的記憶,也變成了一種生死離別下的重要訴求。

我們觀察到上述的情況後升級了我們之前的產品“標貝留聲機”,它能夠復刻父母聲音,給孩子講故事,這在家長圈裏引起了廣泛注意,聲音復刻的數量增長了500%以上,1-4月份留聲機的用戶使用數據增長了200%。我們之前就有“聲音銀行”的概念,用戶可以把聲音存儲在我們的雲端系統上,就像在銀行存錢一樣。需要的時候,就可以應用這個聲音,生成自己想要的內容。

“聲音復刻”的黑科技,有它逃不開的靈魂拷問

 

在智能語音領域,留聲機產品是一個新的技術應用,核心技術是如何利用少量的數據,實現一個高相似度的聲音模型。大家可能之前看到過科學家霍金,在失去說話能力之後,可以依靠語音合成技術說話,覺得不可思議。隨着技術的進步,這一技術的應用成本在大幅下降,每個人都可以擁有自己的聲音。用戶只需要錄製5分鐘語音內容,等待2小時左右即可獲得用自己的聲音想說就說的功能,這在之前其實是很難想象的。我們也在不斷對技術進行升級,充分利用基於Attention的機制,以及遷移學習技術,去提升了聲音復刻的效果,改善用戶體驗,讓聲音的還原度更高,聽起來更像。但因爲數據量比較小,如何保證穩定輸出是訓練這種模型時要面對的挑戰。

我認爲,聲音復刻的需求是存在的,但可能只有很少的人知道現在已經有這樣的技術能夠滿足此類需求,目前技術的宣傳還遠遠不夠。當然,也因爲這個技術出現的時間比較短,語音不僅僅是信息載體,還承載了一個人的很多個人特點,包括音色、語氣、語調、風格等,在技術上仍需要持續探索。對一個新的使用場景,也還需要全行業一起努力去推動它的落地,打造出有一個標杆性的產品,爲用戶所認識和接受,這還需要一定時間,這是一個以點帶面的過程。只有技術服務提供的時間週期比較長,才能展現出它的實際價值,現在這個使用場景還處在一個打磨的階段。

僅僅有聲音還不夠,聲音結合圖像,會有更爲廣闊的空間。近幾年,短視頻的蓬勃發展,也說明了聲音+圖像的巨大市場。因此,“虛擬人”這樣的產品應運而生,它可以覆蓋虛擬主播、虛擬員工、虛擬偶像等各類不同的場景,應用於新聞媒體、智能客服、智能銀行、智能城市、泛娛樂應用等系統當中。

判斷“留聲機”、“虛擬人”這樣的使用場景是否是剛需,可以從價值創造、及時性、便利性等不同的方面來分析。

比如,虛擬人如果可以代替部分人工,那會爲公司節約人力成本,創造價值。只要是投入成本低於所節約的成本,企業就會樂於投入。比如智能客服爲什麼能快速發展,實際上是這些領域的客戶嚐到了甜頭,在使用此類技術後,企業可以降低30%或50%的客服人力成本,大大提升整個財務狀況,那麼他就會繼續擴大在這方面的投入。

又比如,傳統的新聞播報有時效性,而錄音難以實時滿足,而且成本較高,採用留聲機或者虛擬人技術,就可以隨時低成本地生產內容,既滿足了實時性的要求,又降低了成本。

再比如,短視頻的編輯,變得越來越簡單,但給視頻配上匹配的聲音,往往需要找配音演員,而且對聲音的控制,也涉及到很多專業的知識。不過我們的技術現在還很難做到給影視作品配音,等到合成效果達到這個水平,我覺得會有徹底的變化。

“聲音復刻”的黑科技,有它逃不開的靈魂拷問

 

逃不開的靈魂拷問

目前來看,“留聲機”、“虛擬數字人”市場認知度、成熟度在不斷提升,有些音頻內容或者視頻內容,已經融入了這些新技術產生的音頻或者視頻。但我覺得目前存在以下幾點挑戰,或者說思考的空間,值得全行業一起去尋找答案:

1、語音合成是科學與藝術的結合,比如聲音復刻,一方面需要技術創新應用,怎麼讓聲音效果更逼近人聲效果,合成速度快、效果好的問題。另一方面,需要做創新性玩法,打磨出更穩定、更個性、更差異化的語音應用體驗。後續需要考慮如何提高情感表達方面的技術,這繞不開“語義理解”這個環節的提升。

2、技術提供商提供的是核心的技術,每個具體應用的領域,都有其特殊性,需要深入瞭解行業,瞭解用戶,這需要結合產品形態去做各個行業的探索,針對不同產品提供更好的解決方案,這不是一個複製粘貼的過程,比如在兒童教育場景,如何利用語音技術,針對不同年齡段開發功能,如何做到 “千人千面,如何能夠持續良性發展,如何反哺技術研發,都需要深入考慮。

3、商業化問題需要持續關注。如果產品直接To C,那就要去驗證用戶願不願意付費的問題。我覺得實際上對留聲機來說,它最終會是一個To C的產品。產品涉及到訓練模型,提供線上服務,如果用戶沒有付費意願,那商業化的問題就比較棘手。如果產品To B,比如我們會和玩具廠商、家居、汽車等有一些合作,如果此類合作伙伴不能有很好的商業模式,那麼他們購買我們技術服務的動力也會很弱。那麼對技術提供商來說,接下來一方面要考慮降低技術成本,讓它更容易用很小的成本去嘗試去推廣,去驗證它的商業模式;另一方面,也要幫助合作伙伴收集用戶數據去做測試,不斷迭代技術和產品,讓它在市場端有更好的需求。

4、技術的應用,有時會面臨技術有罪與無罪的爭論。我相信大家都很關心安全風險以及監管的問題,這是一個風險點,但是它可能不會阻礙整個技術的發展。只是我們在應用技術的時候要權衡,是否需要讓聲音保留一些技術的特徵。另外,也需要儘可能提高數據的安全性,比如我們開發了一套完善的賬戶管理體系,將復刻的聲音或者定製的虛擬人進行授權,使之保留在一個特定的範圍之內,以盡力保持這個技術的合法利用。隨着這類場景不斷普及,我認爲也會陸續有相關的指導政策出臺,以最大化降低相關問題出現的風險。如果要詐騙,其實一個真人去打電話,和讓一個虛擬數字人去打電話,我覺得本質上沒有區別,就像菜刀有人拿去切菜有人拿去砍人。所以如果做了該做的防範,遵守了相關的法律法規,在這個基礎上保持一個相對開放的心態,可能會利大於弊。我們希望這個技術能夠達到真人的效果,但當它快達到100%的時候又會有恐慌,這個問題非常複雜,其實很難有完全正確的答案。

5、理論上,低端、重複性的工作都可以用機器來代替,但是我們發現日常生活中還是有很多此類崗位存在。技術完全替代人,基本上可以認爲是不可能的。但技術的發展在不斷改變技術替代人的比例,隨着人口老齡化,我們的勞動力越來越少,那麼在各個行業它替代人的佔比都會提升,這最終可能會變成一個社會問題。

目前來看,行業競爭關鍵也是考驗語音技術與配套場景產品結合,未來一定會有大批玩家進入,不乏BAT這樣的玩家。可以肯定的是,隨着大批玩家的涌入,這個市場會愈發成熟,用戶對新技術的接受程度會大大提升。當一個虛擬人或者智能體說話時能達到和真人一樣的效果,我相信整個行業會迎來一個爆發。

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章