打破國外壟斷，出門問問主導研發的端到端語音識別開源框架WeNet實踐之路

原創

2021-10-20 13:38

{"type":"doc","content":[{"type":"paragraph","attrs":{"indent":0,"number":0,"align":null,"origin":null}},{"type":"blockquote","content":[{"type":"paragraph","attrs":{"indent":0,"number":0,"align":null,"origin":null},"content":[{"type":"text","text":"端到端語音識別技術，如何更好的落地？"}]}]},{"type":"paragraph","attrs":{"indent":0,"number":0,"align":null,"origin":null}},{"type":"heading","attrs":{"align":null,"level":3},"content":[{"type":"text","text":"出門問問開源端到端語音識別框架WeNet，star數已超1300"}]},{"type":"paragraph","attrs":{"indent":0,"number":0,"align":null,"origin":null}},{"type":"paragraph","attrs":{"indent":0,"number":0,"align":null,"origin":null},"content":[{"type":"text","text":"今年2月，中國人工智能公司出門問問聯合西北工業大學推出了"},{"type":"text","marks":[{"type":"strong"}],"text":"全球首個面向產品和工業界的端到端語音識別開源工具 —— WeNet"},{"type":"text","text":"。"}]},{"type":"paragraph","attrs":{"indent":0,"number":0,"align":null,"origin":null}},{"type":"paragraph","attrs":{"indent":0,"number":0,"align":null,"origin":null},"content":[{"type":"text","text":"在正式發佈後短短8個月的時間裏，WeNet 在Github 上的 star 數已超過了1300個。"}]},{"type":"paragraph","attrs":{"indent":0,"number":0,"align":null,"origin":null}},{"type":"paragraph","attrs":{"indent":0,"number":0,"align":null,"origin":null},"content":[{"type":"text","text":"近日，出門問問 WeNet項目負責人接受了InfoQ專訪，詳細介紹了 WeNet 研發創新的思考與實踐。"}]},{"type":"paragraph","attrs":{"indent":0,"number":0,"align":null,"origin":null}},{"type":"paragraph","attrs":{"indent":0,"number":0,"align":null,"origin":null},"content":[{"type":"text","text":"據瞭解，2020年10月，WeNet在出門問問內部正式立項。當時，公司內部多位研發人員同時展開對端到端語音識別技術的研發探索。"}]},{"type":"paragraph","attrs":{"indent":0,"number":0,"align":null,"origin":null}},{"type":"paragraph","attrs":{"indent":0,"number":0,"align":null,"origin":null},"content":[{"type":"text","text":"在探索過程中發現，主流的端到端語音識別工具ESPnet並不能完全滿足需求，ESPnet在工程上難以產品化，也難以支持流式語音識別、語言模型等語音產品中的核心特性。"}]},{"type":"paragraph","attrs":{"indent":0,"number":0,"align":null,"origin":null}},{"type":"paragraph","attrs":{"indent":0,"number":0,"align":null,"origin":null},"content":[{"type":"text","text":"因此，出門問問決定走自研之路，打造出一款以產品化爲核心的端到端語音識別工具。與此同時，也想借此機會將公司內端到端的研究工作加以整合，將技術成果沉澱下來，這也正是“WeNet”名字的來源，“We”寓意“共創”。"}]},{"type":"paragraph","attrs":{"indent":0,"number":0,"align":null,"origin":null}},{"type":"paragraph","attrs":{"indent":0,"number":0,"align":null,"origin":null},"content":[{"type":"text","text":"“WeNet的研發過程其實也是‘摸着石頭過河’，邊實踐，邊總結，邊提高”，最開始，只有該項目負責人張彬彬一個人在開發核心代碼，他用一個月時間完成了框架設計，很快又有2位成員加入進來，組成‘三人小分隊’。隨後，他們聯合了西北工業大學的音頻語音與語言處理研究組來開發這款WeNet。"}]},{"type":"paragraph","attrs":{"indent":0,"number":0,"align":null,"origin":null}},{"type":"paragraph","attrs":{"indent":0,"number":0,"align":null,"origin":null},"content":[{"type":"text","text":"怎樣做好流式的端到端語音識別是WeNet團隊在研發過程中遇到的一個棘手問題。流式端到端語音識別是指在處理音頻流的過程中，實時返回識別結果，延遲極低，對實時率要求高。爲攻克這一難點，WeNet團隊首創了 U2 算法，經過反覆試錯、調優、實驗，最終實現了良好的模型和識別效果。"}]},{"type":"paragraph","attrs":{"indent":0,"number":0,"align":null,"origin":null}},{"type":"paragraph","attrs":{"indent":0,"number":0,"align":null,"origin":null},"content":[{"type":"text","text":"項目啓動2個月後，WeNet即在GitHub上放出了部分代碼。今年2月，WeNet發佈第一個正式版本 — WeNet 1.0版本，WeNet 1.0版本支持流式和非流式語音識別，支持雲端x86和設備端android端的推理。"}]},{"type":"paragraph","attrs":{"indent":0,"number":0,"align":null,"origin":null}},{"type":"paragraph","attrs":{"indent":0,"number":0,"align":null,"origin":null},"content":[{"type":"text","text":"這時，WeNet框架已相對完備，初步達成產品化目標，也收穫了不少來自社區的正向反饋，於是團隊決定將WeNet正式對外開源。"}]},{"type":"paragraph","attrs":{"indent":0,"number":0,"align":null,"origin":null}},{"type":"paragraph","attrs":{"indent":0,"number":0,"align":null,"origin":null},"content":[{"type":"text","text":"開源地址："},{"type":"link","attrs":{"href":"https:\/\/github.com\/wenet-e2e\/wenet\/","title":"","type":null},"content":[{"type":"text","text":"https:\/\/github.com\/wenet-e2e\/wenet\/"}]}]},{"type":"paragraph","attrs":{"indent":0,"number":0,"align":null,"origin":null}},{"type":"paragraph","attrs":{"indent":0,"number":0,"align":null,"origin":null},"content":[{"type":"text","text":"今年6月，WeNet推出了1.0.0版本，該版本支持更多的數據集，解決了目前主流語音開源工具的痛點，且各項性能指標表現優異。"}]},{"type":"paragraph","attrs":{"indent":0,"number":0,"align":null,"origin":null}},{"type":"image","attrs":{"src":"https:\/\/static001.geekbang.org\/resource\/image\/6e\/5e\/6ec27bdde593e330bca39a589978c25e.png","alt":null,"title":null,"style":[{"key":"width","value":"75%"},{"key":"bordertype","value":"none"}],"href":null,"fromPaste":true,"pastePass":true}},{"type":"paragraph","attrs":{"indent":0,"number":0,"align":null,"origin":null}},{"type":"paragraph","attrs":{"indent":0,"number":0,"align":null,"origin":null},"content":[{"type":"text","text":"WeNet 使用業內前沿的深度學習模型結構U2++ ，支持語言模型、endpoint、n-best、時間戳、提供數據量最大的中文和英文預訓練模型等，在 Aishell-1 ，Aishell-2 和 GigaSpeech 上準確率達到 SOTA ；推理方案支持 Android 平臺和 x86 平臺，支持基於 gRPC 和 WebSocket 的服務端推理和端側推理。"}]},{"type":"paragraph","attrs":{"indent":0,"number":0,"align":null,"origin":null}},{"type":"paragraph","attrs":{"indent":0,"number":0,"align":null,"origin":null},"content":[{"type":"text","text":"接下來，WeNet將按照“邊開發、邊開放”的節奏逐步開源。"}]},{"type":"paragraph","attrs":{"indent":0,"number":0,"align":null,"origin":null}},{"type":"paragraph","attrs":{"indent":0,"number":0,"align":null,"origin":null},"content":[{"type":"text","text":"目前，WeNet團隊正在規劃下一個版本，新功能主要會圍繞三個核心點研發："}]},{"type":"paragraph","attrs":{"indent":0,"number":0,"align":null,"origin":null}},{"type":"bulletedlist","content":[{"type":"listitem","attrs":{"listStyle":null},"content":[{"type":"paragraph","attrs":{"indent":0,"number":0,"align":null,"origin":null},"content":[{"type":"text","marks":[{"type":"strong"}],"text":"支持更多產品級、工業級特性。"}]}]}]},{"type":"paragraph","attrs":{"indent":0,"number":0,"align":null,"origin":null}},{"type":"paragraph","attrs":{"indent":0,"number":0,"align":null,"origin":null},"content":[{"type":"text","text":"如超大規模數據 IO（10萬小時以上）、熱詞、關鍵詞檢測、ITN，標點、標註錯誤檢測等；"}]},{"type":"paragraph","attrs":{"indent":0,"number":0,"align":null,"origin":null}},{"type":"bulletedlist","content":[{"type":"listitem","attrs":{"listStyle":null},"content":[{"type":"paragraph","attrs":{"indent":0,"number":0,"align":null,"origin":null},"content":[{"type":"text","marks":[{"type":"strong"}],"text":"完善生態建設。"}]}]}]},{"type":"paragraph","attrs":{"indent":0,"number":0,"align":null,"origin":null}},{"type":"paragraph","attrs":{"indent":0,"number":0,"align":null,"origin":null},"content":[{"type":"text","text":"包括文檔和教程建設，進行國際化推廣、開發者社羣維護、獲得更多公司、高校的支持，支持更多更廣泛的數據集，目前正在進行數個對中文、英文、日文等標準數據集的支持；"}]},{"type":"paragraph","attrs":{"indent":0,"number":0,"align":null,"origin":null}},{"type":"paragraph","attrs":{"indent":0,"number":0,"align":null,"origin":null},"content":[{"type":"text","text":"據悉，**今年10月，西北工業大學聯合出門問問、希爾貝殼、西安未來人工智能計算中心發佈超10000小時超大規模開源中文網絡語音數據集 WenetSpeech。**具體開放時間爲：10月8日，開放論文；10月25日開放數據集下載；11月11日，開放基於該數據集的WeNet 預訓練模型。"}]},{"type":"paragraph","attrs":{"indent":0,"number":0,"align":null,"origin":null}},{"type":"bulletedlist","content":[{"type":"listitem","attrs":{"listStyle":null},"content":[{"type":"paragraph","attrs":{"indent":0,"number":0,"align":null,"origin":null},"content":[{"type":"text","marks":[{"type":"strong"}],"text":"更前沿模型的探索："}]}]}]},{"type":"paragraph","attrs":{"indent":0,"number":0,"align":null,"origin":null}},{"type":"paragraph","attrs":{"indent":0,"number":0,"align":null,"origin":null},"content":[{"type":"text","text":"在技術上，將探索更好的端到端模型、預訓練模型、無監督訓練等技術。"}]},{"type":"heading","attrs":{"align":null,"level":3},"content":[{"type":"text","text":"WeNet核心特性：生產力第一"}]},{"type":"paragraph","attrs":{"indent":0,"number":0,"align":null,"origin":null}},{"type":"paragraph","attrs":{"indent":0,"number":0,"align":null,"origin":null},"content":[{"type":"text","text":"“我們希望WeNet成爲國內和國際上最流行、最有生產力的智能語音工具”，出門問問對WeNet的未來充滿期待。"}]},{"type":"paragraph","attrs":{"indent":0,"number":0,"align":null,"origin":null}},{"type":"paragraph","attrs":{"indent":0,"number":0,"align":null,"origin":null},"content":[{"type":"text","text":"如果用簡單的幾個詞總結 WeNet 的特性，那就是**“更快、更高、更強、更有生產力”**。目前，WeNet 1.0 以其“小而精”的鮮明特色，已構建了一個完整完善的語音識別所需的方方面面的能力，且具有工業界應用的典型案例。"}]},{"type":"paragraph","attrs":{"indent":0,"number":0,"align":null,"origin":null}},{"type":"paragraph","attrs":{"indent":0,"number":0,"align":null,"origin":null},"content":[{"type":"text","marks":[{"type":"strong"}],"text":"“生產力第一”是WeNet自誕生之初就確立的核心原則，其定位是面向產品和工業界。"},{"type":"text","text":"“WeNet在設計之初、開源之前，就是爲了落地端到端語音識別，解決語音識別在實際產品和應用中的實際問題”，張彬彬表示，“端到端語音識別產品在落地過程中存在的痛點和難點，多數是產品化的問題，把產品化做好纔是關鍵”。"}]},{"type":"paragraph","attrs":{"indent":0,"number":0,"align":null,"origin":null}},{"type":"paragraph","attrs":{"indent":0,"number":0,"align":null,"origin":null},"content":[{"type":"text","text":"WeNet的架構和特性也主要遵循“生產力至上”的原則而設計。"}]},{"type":"paragraph","attrs":{"indent":0,"number":0,"align":null,"origin":null}},{"type":"image","attrs":{"src":"https:\/\/static001.geekbang.org\/resource\/image\/a2\/yy\/a2d6af81a92273740dd7011eef4ef6yy.png","alt":null,"title":null,"style":[{"key":"width","value":"75%"},{"key":"bordertype","value":"none"}],"href":null,"fromPaste":true,"pastePass":true}},{"type":"paragraph","attrs":{"indent":0,"number":0,"align":null,"origin":null}},{"type":"paragraph","attrs":{"indent":0,"number":0,"align":null,"origin":null},"content":[{"type":"text","text":"據介紹，WeNet 的核心算法是U2和U2++，WeNet 1.0 中將 U2 算法升級到 U2++，U2++是當前全球最前沿的深度學習模型結構。使用Conformer網絡結構和CTC\/attention loss聯合優化方法，先用CTC進行流式解碼，再用Attention Decoder去重打分，進一步提高了識別準確率。"}]},{"type":"paragraph","attrs":{"indent":0,"number":0,"align":null,"origin":null}},{"type":"paragraph","attrs":{"indent":0,"number":0,"align":null,"origin":null},"content":[{"type":"text","text":"與企業相比，高校和研究機構做語音識別相關的模型和算法，無需過多考慮模型是否有應用場景以及能不能落地。在設計公開數據集上的性能時，也基本不用考慮是否是流式的，模型的參數量如何，是否能採用低成本的方式等。"}]},{"type":"paragraph","attrs":{"indent":0,"number":0,"align":null,"origin":null}},{"type":"paragraph","attrs":{"indent":0,"number":0,"align":null,"origin":null},"content":[{"type":"text","text":"但在企業不同。出門問問認爲，一個算法、一個模型、一個產品和項目，如果不能在公司裏面落地，可能毫無價值可言。"}]},{"type":"paragraph","attrs":{"indent":0,"number":0,"align":null,"origin":null}},{"type":"paragraph","attrs":{"indent":0,"number":0,"align":null,"origin":null},"content":[{"type":"text","text":"生產級語音識別系統的建設，對技術團隊的能力提出了更高的要求，需要更深入的理解語音識別的場景和實際的產品訴求，以及更高標準的工程能力的要求，還要更專注產品的特性，更剋制。"}]},{"type":"paragraph","attrs":{"indent":0,"number":0,"align":null,"origin":null}},{"type":"paragraph","attrs":{"indent":0,"number":0,"align":null,"origin":null},"content":[{"type":"text","text":"不過，WeNet雖是一款面向工業級產品的端到端語音識別解決方案，但因其簡單、高效的特性，也被很多高校用來作爲學習和科研工具。WeNet 在整體結構設計上屬於輕量級的框架，安裝、使用方便，這對於高校的研究者來說，便於快速上手。"}]},{"type":"paragraph","attrs":{"indent":0,"number":0,"align":null,"origin":null}},{"type":"paragraph","attrs":{"indent":0,"number":0,"align":null,"origin":null},"content":[{"type":"text","text":"WeNet 所具有的生產力第一、輕量級、準確率高等性能，對開發者羣體十分友好，即便是在開發者已經使用其他語音識別框架的情況下，也能快速、安全、低成本的遷移到WeNet 上來。"}]},{"type":"paragraph","attrs":{"indent":0,"number":0,"align":null,"origin":null}},{"type":"paragraph","attrs":{"indent":0,"number":0,"align":null,"origin":null},"content":[{"type":"text","text":"在遷移成本方面，WeNet提供了模型訓練、推理、預訓練模型，如果用戶想搭建語音系統，在出門問問的平臺上下載預訓練模型，再用推理的流程把模型給構思起來，整個過程約10分鐘內就可以操作完，輕鬆獲得專業級別、可以應用的語音能力。"}]},{"type":"paragraph","attrs":{"indent":0,"number":0,"align":null,"origin":null}},{"type":"paragraph","attrs":{"indent":0,"number":0,"align":null,"origin":null},"content":[{"type":"text","text":"WeNet還提供一站式的服務，傳統的語音識別模型的研發分爲模型研發、模型訓練、模型部署三個階段，每一步都有很多複雜冗長的工作要做，而通過WeNet ，原來需要三步，三個人甚至三個團隊去做的工作，現在靠這一個平臺就解決了。"}]},{"type":"paragraph","attrs":{"indent":0,"number":0,"align":null,"origin":null}},{"type":"paragraph","attrs":{"indent":0,"number":0,"align":null,"origin":null},"content":[{"type":"text","text":"現在，WeNet 已經廣泛應用到到出門問問內部的各個產品線，如車載、魔音工坊等toB項目。"}]},{"type":"paragraph","attrs":{"indent":0,"number":0,"align":null,"origin":null}},{"type":"paragraph","attrs":{"indent":0,"number":0,"align":null,"origin":null},"content":[{"type":"text","text":"**出門問問也爲企業使用 WeNet 部署語音識別提供商業化和技術支持。**企業皆可基於自己的數據和服務體系，擁有私有化系統。"}]},{"type":"paragraph","attrs":{"indent":0,"number":0,"align":null,"origin":null}},{"type":"paragraph","attrs":{"indent":0,"number":0,"align":null,"origin":null},"content":[{"type":"text","text":"目前，WeNet應用到了喜馬拉雅、作業幫、京東、騰訊等數百家公司，他們採用 WeNet 構建自己語音服務，覆蓋智能車載、智能家居、智能客服、音頻內容生產、直播、會議等語音識別應用場景。"}]},{"type":"paragraph","attrs":{"indent":0,"number":0,"align":null,"origin":null}},{"type":"image","attrs":{"src":"https:\/\/static001.geekbang.org\/resource\/image\/98\/17\/988cfc3132794bbc0e754cc48c1b0317.png","alt":null,"title":null,"style":[{"key":"width","value":"75%"},{"key":"bordertype","value":"none"}],"href":null,"fromPaste":true,"pastePass":true}},{"type":"paragraph","attrs":{"indent":0,"number":0,"align":null,"origin":null}},{"type":"paragraph","attrs":{"indent":0,"number":0,"align":null,"origin":null},"content":[{"type":"text","text":"在上述場景中，WeNet 都做到了更高水平的準確率。WeNet 被用戶贊爲“"},{"type":"text","marks":[{"type":"strong"}],"text":"產品化集成度最好的框架"},{"type":"text","text":"”。WeNet 通過打造社區支撐、提供行業解決方案、落地私有部署等方面，爲AI行業創建共享機制、建立生態。"}]},{"type":"heading","attrs":{"align":null,"level":3},"content":[{"type":"text","text":"端到端語音識別時代來臨"}]},{"type":"paragraph","attrs":{"indent":0,"number":0,"align":null,"origin":null}},{"type":"paragraph","attrs":{"indent":0,"number":0,"align":null,"origin":null},"content":[{"type":"text","text":"“生產力第一”也是WeNet有別於其他語音識別工具的核心優勢。"}]},{"type":"paragraph","attrs":{"indent":0,"number":0,"align":null,"origin":null}},{"type":"paragraph","attrs":{"indent":0,"number":0,"align":null,"origin":null},"content":[{"type":"text","text":"在WeNet早期，出門問問內部曾將其和主流的端到端語音識別框架ESPnet做過性能上的對比，WeNet在易安裝、易用性、產品化等方面表現要好於ESPnet，其中在易用性上，可提供一鍵式訓練腳本、預訓練模型和多平臺運行時工具。"}]},{"type":"paragraph","attrs":{"indent":0,"number":0,"align":null,"origin":null}},{"type":"paragraph","attrs":{"indent":0,"number":0,"align":null,"origin":null},"content":[{"type":"text","text":"相比ESPnet，Wenet沒有對各類序列轉化任務進行統一抽象，完全聚焦於語音識別任務，同時對常用的語音識別應用場景提出了一套端到端解決方案，而不是提供各類模型方案的大而全的集合。"}]},{"type":"paragraph","attrs":{"indent":0,"number":0,"align":null,"origin":null}},{"type":"paragraph","attrs":{"indent":0,"number":0,"align":null,"origin":null},"content":[{"type":"text","text":"自去年12月開始，出門問問內部全部遷移到了WeNet上，經驗證開發效率得以大幅提升。如今，在Github 的Star 數量上，WeNet也遠超國內其他開源語音框架。"}]},{"type":"paragraph","attrs":{"indent":0,"number":0,"align":null,"origin":null}},{"type":"paragraph","attrs":{"indent":0,"number":0,"align":null,"origin":null},"content":[{"type":"text","text":"WeNet團隊表示，相比於其他的端到端語音識別工具，WeNet現階段還是一名“年輕選手”，WeNet正式發佈也就半年時間，在生態和數據集的建設方面還相對欠缺，“現在學術界有50個場景的數據集，我們只做了5個，數量還遠遠不夠，未來會逐步補上來，目前正在藉助社區的數量展開工作”。"}]},{"type":"paragraph","attrs":{"indent":0,"number":0,"align":null,"origin":null}},{"type":"paragraph","attrs":{"indent":0,"number":0,"align":null,"origin":null},"content":[{"type":"text","text":"近些年，隨着深度學習技術的發展，語音識別技術經歷了深刻的變革，從基於 DNN-HMM的語音識別，到基於 CTC的端對端語音識別再到基於基於 Attention 的端對端語音識別。"}]},{"type":"paragraph","attrs":{"indent":0,"number":0,"align":null,"origin":null}},{"type":"paragraph","attrs":{"indent":0,"number":0,"align":null,"origin":null},"content":[{"type":"text","text":"語音識別進入到“全民”端到端時代，已是毋庸置疑的趨勢。學術界最早在2014年開始研究端到端語音識別技術，經過7年發展，該技術現在已經逐步趨向成熟。"}]},{"type":"paragraph","attrs":{"indent":0,"number":0,"align":null,"origin":null}},{"type":"paragraph","attrs":{"indent":0,"number":0,"align":null,"origin":null},"content":[{"type":"text","text":"端到端語音識別技術具有明顯的優勢，它大大簡化了語音識別的流程，流程簡化後，上手學習、應用的門檻都大大降低，同時還能實現非常好的語音識別效果。特別是近兩三年，該技術已經在業界廣泛的應用，落地，未來會有更多的行業應用湧現。"}]},{"type":"paragraph","attrs":{"indent":0,"number":0,"align":null,"origin":null}},{"type":"paragraph","attrs":{"indent":0,"number":0,"align":null,"origin":null},"content":[{"type":"text","text":"任何一項技術發展到一定階段後都會面臨瓶頸期，端到端語音技術現在面臨的一個問題在於，端到端語音識別依賴平行語料數據，平行語料在低資源語言下的應用還需進一步探索，低資源的學習將是接下來的研究重點。"}]},{"type":"paragraph","attrs":{"indent":0,"number":0,"align":null,"origin":null}},{"type":"paragraph","attrs":{"indent":0,"number":0,"align":null,"origin":null},"content":[{"type":"text","text":"目前的深度學習依賴大量的語料及標註數據，預訓練技術和無監督學習技術是當前語音領域研究的熱點和難點。出門問問判斷，接下來3-5年，預訓練技術和無監督學習技術將是發展趨勢。如何使用海量的無監督數據學習，並進行模型的預訓練，然後以低成本進行遷移到其他任務上，值得投入更多探索。在預訓練技術上，出門問問很早就開始了語音預訓練和自然語言處理GPT-3的研究，未來會持續在這塊發力。"}]},{"type":"heading","attrs":{"align":null,"level":3},"content":[{"type":"text","text":"擁抱開源生態，打破依賴國外語音框架的長期壟斷WeNet發展的每一步離不開開源社區的助力。WeNet研發借鑑了Espnet 、Pytorch 、Kaldi 等優秀的開源項目。如今發展漸至成熟的WeNet也選擇開源開放來回饋社區，爲語音開源生態出一分力。"}]},{"type":"paragraph","attrs":{"indent":0,"number":0,"align":null,"origin":null}},{"type":"paragraph","attrs":{"indent":0,"number":0,"align":null,"origin":null},"content":[{"type":"text","text":"張彬彬覺得，Wenet開源最大的意義是降低了語音識別的門檻。“傳統的語音識別技術，門檻高，需要專業的背景知識。門檻降低後，越來越多的人能夠接觸、從事、開發和應用語音識別，只有越來越多的人從事這個行業，這個行業纔會發展的更快，也能更好、更快的賦能和產品化”。"}]},{"type":"paragraph","attrs":{"indent":0,"number":0,"align":null,"origin":null}},{"type":"paragraph","attrs":{"indent":0,"number":0,"align":null,"origin":null},"content":[{"type":"text","text":"他表示，Wenet開源後也收到了一些圈內人士的關心，Wenet通過開源的方式把語音識別的門檻降低了，但這是否對出門問問公司本身帶來不好的影響？"}]},{"type":"paragraph","attrs":{"indent":0,"number":0,"align":null,"origin":null}},{"type":"paragraph","attrs":{"indent":0,"number":0,"align":null,"origin":null},"content":[{"type":"text","text":"思考許久後，他更堅定的覺得這是一個正確無比的決定。"}]},{"type":"paragraph","attrs":{"indent":0,"number":0,"align":null,"origin":null}},{"type":"paragraph","attrs":{"indent":0,"number":0,"align":null,"origin":null},"content":[{"type":"text","text":"“如果用發展和長遠的眼光來看，只有語音行業的快速發展、進步和應用才能帶來更多的成長空間，我們更多的是追求全面的、發展的、生態的共贏，而不是片面的、孤立的、壟斷的零和博弈。此外，WeNet的成熟也能促使大家把重心放到打造真正的產品和應用上，而不是重複造輪子，只是處理各種瑣碎和邊邊角角。”"}]},{"type":"paragraph","attrs":{"indent":0,"number":0,"align":null,"origin":null}},{"type":"paragraph","attrs":{"indent":0,"number":0,"align":null,"origin":null},"content":[{"type":"text","text":"如果從更宏觀的維度看，WeNet開源後，國產原創語音識別工具陣營又添一員“大將”。"}]},{"type":"paragraph","attrs":{"indent":0,"number":0,"align":null,"origin":null}},{"type":"paragraph","attrs":{"indent":0,"number":0,"align":null,"origin":null},"content":[{"type":"text","text":"我國產業界對開源語音框架依賴性較高。在很長一段時間裏，我國語音識別領域所使用的工具和框架，多出自西方國家的企業或高校研發，被國外壟斷開發。"}]},{"type":"paragraph","attrs":{"indent":0,"number":0,"align":null,"origin":null}},{"type":"paragraph","attrs":{"indent":0,"number":0,"align":null,"origin":null},"content":[{"type":"text","text":"最早期，在上世紀90年代到2010年代，傳統的語音識別系統HTK是英國高校開發的。近10年裏，最爲流行的語音識別工具Kaldi，是美國公司和高校開發的。最近三年，最主流的端到端語音識別工具ESPnet是美日高校和公司開發的。"}]},{"type":"paragraph","attrs":{"indent":0,"number":0,"align":null,"origin":null}},{"type":"paragraph","attrs":{"indent":0,"number":0,"align":null,"origin":null},"content":[{"type":"text","text":"現階段，國內原創的語音識別工具還比較少，一些科技大公司雖開發了自己的工具，但因涉及核心資產等因素，這些工具通常不會被開放出來，也未能得到廣泛應用。"}]},{"type":"paragraph","attrs":{"indent":0,"number":0,"align":null,"origin":null}},{"type":"paragraph","attrs":{"indent":0,"number":0,"align":null,"origin":null},"content":[{"type":"text","text":"在這樣的背景下，打造自主可控的語音開源工具已是箭在弦上。"}]},{"type":"paragraph","attrs":{"indent":0,"number":0,"align":null,"origin":null}},{"type":"paragraph","attrs":{"indent":0,"number":0,"align":null,"origin":null},"content":[{"type":"text","text":"出門問問認爲，WeNet 是真正意義上的第一個國產並廣泛流行和應用的語音識別框架，打破了西方國家在該領域的長期壟斷，對實現真正的自主可控具有重要意義。出門問問希望通過探索和構建開源開放協作的共享機制，創建自主可控的語音開源工具，尋求國產AI 技術的進一步突破。"}]},{"type":"paragraph","attrs":{"indent":0,"number":0,"align":null,"origin":null}},{"type":"paragraph","attrs":{"indent":0,"number":0,"align":null,"origin":null},"content":[{"type":"text","marks":[{"type":"strong"}],"text":"採訪嘉賓介紹："}]},{"type":"paragraph","attrs":{"indent":0,"number":0,"align":null,"origin":null}},{"type":"paragraph","attrs":{"indent":0,"number":0,"align":null,"origin":null},"content":[{"type":"text","text":"張彬彬，出門問問WeNet項目負責人，2018年加入出門問問負責端到端語音識別系統的研發和落地，包括WeNet的開源推進，車載和toB項目等。2017年碩士畢業於西北工業大學音頻語音與語言處理研究組，曾在微軟、百度、地平線等公司工作。"}]},{"type":"paragraph","attrs":{"indent":0,"number":0,"align":null,"origin":null}},{"type":"paragraph","attrs":{"indent":0,"number":0,"align":null,"origin":null},"content":[{"type":"text","text":"本文選自《中國卓越技術團隊訪談錄》（2021 年第五季），"},{"type":"link","attrs":{"href":"https:\/\/www.infoq.cn\/minibook\/LxX7bFUwKH17bzxQkSKt","title":"","type":null},"content":[{"type":"text","text":"點擊下載電子書"}]},{"type":"text","text":"，查看更多獨家專訪！"}]},{"type":"paragraph","attrs":{"indent":0,"number":0,"align":null,"origin":null}},{"type":"image","attrs":{"src":"https:\/\/static001.geekbang.org\/resource\/image\/86\/29\/86c6565756ed1e096c994c7729aed529.jpeg","alt":null,"title":null,"style":[{"key":"width","value":"75%"},{"key":"bordertype","value":"none"}],"href":null,"fromPaste":true,"pastePass":true}},{"type":"paragraph","attrs":{"indent":0,"number":0,"align":null,"origin":null}},{"type":"paragraph","attrs":{"indent":0,"number":0,"align":null,"origin":null},"content":[{"type":"text","marks":[{"type":"strong"}],"text":"《中國頂尖技術團隊訪談錄》品牌升級，現正式更名爲《中國卓越技術團隊訪談錄》"},{"type":"text","text":"，這是InfoQ打造的重磅內容產品，以各個國內優秀企業的IT技術團隊爲線索策劃系列採訪，希望向外界傳遞傑出技術團隊的做事方法\/技術實踐，讓開發者瞭解他們的知識積累、技術演進、產品錘鍊與團隊文化等，並從中獲得有價值的見解。"}]},{"type":"paragraph","attrs":{"indent":0,"number":0,"align":null,"origin":null}},{"type":"paragraph","attrs":{"indent":0,"number":0,"align":null,"origin":null},"content":[{"type":"text","text":"如果你身處傳統企業經歷了完整的數字化轉型過程或者正在互聯網公司進行創新技術的研發，並希望 InfoQ 可以關注並採訪你所在的技術團隊，可以添加微信：caifangfang842852，請註明來意及公司名稱。"}]}]}

發表評論

所有評論

還沒有人評論，想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.

相關文章

如何從0到1設計診斷系統

引言在整車電子電氣體系中，診斷系統的設計扮演着至關重要的角色，負責支持整車的刷寫、故障排查和EOL(End of Line)等關鍵操作。這一重要性在於這些操作的實現都依賴於診斷系統的全面支持。因此，在設計診斷系統時，必須確保

2024-04-26 22:43:26

Nacos 安全零信任實踐

作者：柳遵飛 Nacos 作爲配置中心經常存儲一些敏感信息，但是由於誤用導致安全風險，最常見的主要是以下兩個問題： 1）Nacos 暴露公網可以嗎？不可以，因爲 Nacos 定位是註冊配置中心，是內部系統，不應該暴露到公網使用。 2）不得已

2024-04-26 21:12:11

centos7下Docker 安裝

Docker 是一個開源的商業產品，有兩個版本：社區版（Community Edition，縮寫爲 CE）和企業版（Enterprise Edition，縮寫爲 EE）。企業版包含了一些收費服務，個人開發者一般用不到。下面的介紹都針對社區

2024-04-26 13:11:00

技術實踐｜大模型內容安全藍軍的道與術

1、引子大語言模型（LLM）在2023年大放異彩，在許多領域展現出強大的能力，包括角色扮演，文本創作，邏輯推理等。然而，隨着其應用範圍的擴大，生成內容的安全問題也日益凸顯。這包括但不限於生成虛假信息、有害內容、偏見或歧視性言論等。這些問題

2024-04-26 09:33:23

MySQL 核心模塊揭祕 | 15 期 | 事務模塊小結

✍ 專欄小結 1 月 3 日，我在社區發佈事務模塊的第一篇文章；4 月 17 日，發佈了最後一篇文章。歷時 3 個半月，用 14 篇文章對事務模塊做了比較全面的介紹。本文我們對事務模塊已經發布的 14 篇文章做個簡單回顧。 01 期《事

2024-04-24 23:20:56

一則 TCP 緩存超負荷導致的 MySQL 連接中斷的案例分析

除了 MySQL 本身之外，如何分析定位其他因素的可能性？作者：龔唐傑，愛可生 DBA 團隊成員，主要負責 MySQL 技術支持，擅長 MySQL、PG、國產數據庫。愛可生開源社區出品，原創內容未經授權不得隨意使用，轉載請聯繫小編並註

2024-04-24 23:20:53

離開工位老是忘記鎖屏？試着讓電腦自動完成這事吧！

1.場景說明公司要求離開工位要立刻鎖定電腦屏幕防止信息泄露，但無論是使用鎖屏快捷鍵還是設置觸發角，總感覺不得勁。想想汽車現在基本都是自動鎖車了，電腦它就不能自己鎖屏嗎？於是抽空蒐羅了一些自動化的解決方案，並按照Win和Mac進行分類。

2024-04-24 23:17:17

高可用 - 隔離原則

前言當討論高可用時，那麼必然有與之對應的低可用甚至不可用，但無論是哪種可用描述，其中都暗含了一個大衆共識，即不存在永久穩定運行的系統程序。事實上，幾十年前圖靈也論證過類似的問題，稱爲“停機問題”，具體的描述是：能否爲A計算機編程，使得

2024-04-24 23:17:13

對接HiveMetaStore，擁抱開源大數據

本文分享自華爲雲社區《對接HiveMetaStore，擁抱開源大數據》，作者：睡覺是大事。 1. 前言適用版本：9.1.0及以上在大數據融合分析時代，面對海量的數據以及各種複雜的查詢，性能是我們使用一款數據處理引擎最重要的考量

2024-04-24 22:33:08

DataGear 企業版 1.1.0 發佈，數據可視化分析平臺

DataGear 企業版 1.1.0 正式發佈，歡迎大家瞭解試用！ http://datagear.tech/pro/ 企業版 1.1.0 新增了MQTT、WebSocket實時數據集功能，新增了Redis、MongoDB數據集功能，具體更

2024-04-24 21:42:05

用DolphinScheduler輕鬆實現Flume數據採集任務自動化！

轉載自天地風雷水火山澤目的因爲我們的數倉數據源是Kafka，離線數倉需要用Flume採集Kafka中的數據到HDFS中。在實際項目中，我們不可能一直在Xshell中啓動Flume任務，一是因爲項目的Flume任務很多，二是一旦Xsh

2024-04-24 21:18:09

自學編程兩個月，現在我月入 4 萬元

這個外國小哥叫 Nico，他一開始是個編程小白，後來把自己關在房間裏花了兩個月時間學會了編程，如今正在開發一款名爲 Talknotes 的應用，可以將語音備忘錄轉化爲結構化的內容，月收入 5000 美元。 Nico 從高中畢業就開始創業，

2024-04-24 21:14:29

京東廣告研發——效率爲王：廣告統一檢索平臺實踐

1、系統概述實踐證明，將互聯網流量變現的在線廣告是互聯網最成功的商業模式，而電商場景是在線廣告的核心場景。京東服務中國數億的用戶和大量的商家，商品池海量。平臺在兼顧用戶體驗、平臺、廣告主收益的前提推送商品具有挑戰性。京東廣告檢索平臺

2024-04-25 23:17:47

Stable Diffusion中的embedding

Stable Diffusion中的embedding 嵌入，也稱爲文本反轉，是在 Stable Diffusion 中控制圖像樣式的另一種方法。在這篇文章中，我們將學習什麼是嵌入，在哪裏可以找到它們，以及如何使用它們。什麼是嵌入embe

2024-04-25 21:31:13

大模型區域落地再加速！百度“文心中國行”西部首站落地成都錦江

4 月 24 日，“文心中國行”西部地區首站落地成都錦江。成都市錦江區白鷺灣新經濟總部功能區、錦江區投資促進局與百度飛槳攜手合作，打造成都人工智能的新產業、新模式、新業態。來自成都政產學研各界的領導、專家、企業嘉賓，共同探討如何降低 AI

2024-04-25 11:41:53

24小時熱門文章

最新文章

最新評論文章