多模態交互的概念與現狀

一、多模態概念

    所謂“模態”,英文是modality,用通俗的話說,就是“感官”,多模態即將多種感官融合。
    目前的人機智能交互比如語言控制不如屏幕控制那麼精準,很多時候會誤判指令和錯誤喚醒,比較語言充滿了不確定性;再比如,語音交互的物聯網設備還是缺乏主動服務的能力,只是換了操作方式而已,用戶體驗沒有本質提升。
    假如我們把“模態”通俗地理解爲感官,那麼智能音箱就是隻具備聽覺模態的物聯網設備,而加載AI分析能力的攝像頭可以視爲視覺模態的物聯網設備。把聽覺、視覺甚至更多模態組合到一起,多模態物聯網也就誕生了。
    目前的AI設備中感知模態主要有三種:
        1.語音交互,包括語音指令控制、語義理解、多輪對話、NLP、語音精準識別等領域;
        2. 機器視覺,包括自然物體識別、人臉識別、肢體動作識別等;
        3. 傳感器智能,包括AI對熱量、紅外捕捉信號、空間信號的閱讀與理解。
    把這三種東西融合在一起,物聯網設備就可以在單純的能聽會說之外,同時還用攝像頭觀察、用傳感器判斷。而比較前沿的多模態感知還包括機器嗅覺,機器觸覺和情緒理解等內容,但目前還沒有落地產品。

二、多模態應用

    目前多模態交互的主要應用場景:
    場景一:多模態AI交互技術投射在物聯網設備上,大概就是用機器視覺技術進行嘴脣識別,來分離語音交互指令。嘗試通過用機器視覺來讀取說話人的脣語和動作,來判斷每個聲音指令的來源。
     場景二:多模態空調。在一些新的智能空調解決方案中,空調會在語音交互的基礎上通過機器視覺來判斷用戶的位置,提供智能送冷,並且會結合傳感器判斷屋內溫度和溼度,提供更精準的環境方案。
     場景三:多模態電視。今年電視背後的AI平臺戰打得風生水起,把機器視覺技術引入電視成爲了新的趨勢。通過機器視覺來讓電視觀察屋內照明情況、用戶與電視的距離,電視可以主動調節屏幕光線強度,輸出比較護眼的模式。還有的AI應用是讓電視在觀察到兒童看電視後主動開啓童鎖。

三、多模態交互解決方案

    目前來看,無論是家電還是工業設備,實現多模態混合的主要方式還是把不同的傳感源輸入到設備處理中心,啓動一定程序來開啓相應服務。換句話說,AI模型本身是沒法理解多模態信號的,只是不同的算法啓動不同的開關而已。這種“僞AI多模態”的設備也不是不行,只是在實時化和複雜的推理判斷上會有心無力。
    解決方案可能是一種叫做“多模態深度學習”的技術,讓AI智能體本身能夠理解多模態信號,從算法本身就容納聽覺、視覺、傳感信號進行統一思考。這樣可以保證設備高度實時化,並且可以讓設備進行多模態協同學習,真正地“聰明”起來。

四、多模態交互產品

    物靈科技 ---- Luka Hero ,Luka Baby機器人(早教機),繪本(定製)閱讀
    阿里巴巴 ----AliOS智能車載交互系統:,AliOS對外宣佈了人臉識別技術,可以針對不同的駕駛者進行差異化的智能化場景服務。AliOS通過車內攝像頭對駕駛員進行面部識別,從而提供播放個人歌單、常用路徑、座椅及後視鏡角度自適應等個性化服務。

五、總結

    目前來說,還沒有真正意義上的多模態落地產品,多數產品只是打着多模態的旗號進行宣傳,實際工作時,各模態之間還是獨立運作,即雖然這些產品都有眼、有耳,但眼只做圖像處理,耳只做語音識別,運行時並沒有進行交差計算。

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章