原创 語音領域學術界和工業界的七宗罪

計算機視覺領域早已全面迎來“ImageNet時刻”,而語音識別領域的的“ImageNet時刻”卻遲遲未來臨。與計算機視覺領域相比,語音識別的預訓練模型、傳遞學習和數據集都相對落後,而且語音識別的計算資源需求仍然過高。近日,一位語音識別領域的

原创 邁向語音識別領域的ImageNet時刻

本文介紹了作者所在團隊爲了實現語音識別領域的“ImageNet時刻”所做的努力,以及相關研究成果。這些成果只需要比較少的投入和資源就可以應用在實際生產環境,與傳統學術研究相比更接地氣。 本文最初由俄語寫作,後續被作者改編爲英文版本並發表在