滴滴出行場景中語音識別模型的自學習平臺化實踐

{"type":"doc","content":[{"type":"heading","attrs":{"align":null,"level":2},"content":[{"type":"text","text":"1. 業務背景"}]},{"type":"paragraph","attrs":{"indent":0,"number":0,"align":null,"origin":null}},{"type":"paragraph","attrs":{"indent":0,"number":0,"align":null,"origin":null},"content":[{"type":"text","text":"隨着數據量增加、計算能力增強以及深度學習理論技術的發展,語音識別準確率不斷提升,應用領域不斷拓寬。在滴滴,語音識別的應用有交互式的,如搭載在車機\/手機上的語音助手,通過語音識別把用戶的語音轉換爲機器能夠理解的文字,使得機器執行對應任務並給予反饋,實現一種自然的人機交流。在一些國家,由於法律法規禁止在駕駛過程中操作手機,語音甚至成爲車載場景中駕駛員與手機交互的唯一一種方式。此外還有非交互式的應用,例如通過行程錄音保障司乘安全,以及在客服質檢、智能外呼等領域上的應用。"}]},{"type":"paragraph","attrs":{"indent":0,"number":0,"align":null,"origin":null}},{"type":"paragraph","attrs":{"indent":0,"number":0,"align":null,"origin":null},"content":[{"type":"text","text":"以交互產品爲例,語音識別的準確率基本可以達到95%的字準水平。但是這並不能滿足日新月異的業務需求。尤其是對於細分領域新增的專有詞彙,如英文詞、地名、專業用語,如果不針對性的調優模型,任何一家廠商的語音識別模型都難以滿足業務要求。由於業務的優化週期一般可達幾周甚至幾月,多條業務線時間存在交疊,偶爾也會出現緊急需求,完全依靠有限的語音工程師處理,並不能及時響應,影響業務推進和用戶體驗。"}]},{"type":"paragraph","attrs":{"indent":0,"number":0,"align":null,"origin":null}}]}
發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章