技術沙龍 | 0.2秒計算680億條路徑，揭祕京東CV/NLP在智慧零售領域的探索與實踐

人工智能發展至今，已經成爲新一輪科技革命的核心動力。過去的 AI 技術驅動重在算法模型的比拼，如今則更依賴場景化的技術實踐與應用落地。

京東作爲全球最大零售商之一，涵蓋線上、線下實體、虛擬等多元化交易場景。目前京東每日產生相關日誌和內容已經達到 PB 級，通過算法的驅動，將這些海量數據與自然語言處理和計算機視覺技術相結合，爲多場景的用戶體驗和交易提升帶來巨大改善。

2019年7月20日，“雲中生智，智創未來——京東人工智能技術應用實踐”京東雲開發者社區技術沙龍在北京舉辦。

本期沙龍以計算機視覺、語音合成、NLP 等技術爲基礎，京東雲+ AI 在智慧零售、智能物流等領域的應用；揭祕京東無人倉如何利用 AI 指導分揀、識別等一系列生產活動；語音合成技術如何服務於京東內部場景和外部用戶以及計算機視覺在智慧零售的實踐。此外，我們的講師還在現場帶領開發者深入學習 NLP 模型算法，提供優質的實戰經驗與解決方案。

相關視頻資料已開源 https://v.qq.com/x/page/m0906...

衆所周知，商品識別技術被認爲是線上、線下智能零售的重要基礎。然而，商品數目繁多、不同類別外觀混淆度高，如何讓機器識別趨近乃至超過人眼判定的精準度？這是許多計算機視覺科學家們一直致力解決的問題。在計算機視覺技術（以下簡稱爲“CV”）研究中有個專門的研究方向“細粒度圖像識別”（Fine-Grained Object Recognition）。

相比於傳統的圖像識別或分類任務，細粒度圖像識別是對某一大類的不同小類進行類別的判斷，例如不同型號的飛機，不同型號的車輛，不同的鳥類等。由於需要判別的類別都屬於一個大類，使得分類難度大大提升，很多類別之間的差異憑藉全局的特徵信息已經很難判斷，所以細粒度的圖像識別算法往往偏向於關注圖像的細節信息，需要網絡能夠依據細節進行類別的判斷。

目前主流的細粒度識別方法主要分爲兩種。一種是基於檢測的方法，包括關鍵區域檢測和關鍵點檢測。這種方法通過對關鍵區域特徵的提取或者對關鍵區域進行類別的判斷來提高分類的準確度。但是這類方法大多需要使用額外的關鍵區域的標註信息，並且添加相應的檢測網絡。另外一種是基於注意力的方法，相比於基於檢測的方法，這類方法往往不需要額外的標註，但是在實際使用時，需要注意力網絡的輔助，使得細粒度的圖像分類網絡相比於傳統的分類網絡需要更多的計算開銷。

基於對細粒度圖像識別本質的分析，京東AI提出基於打亂和重構的細粒度識別方法（Destruction and Construction Learninng），簡稱 DCL，如圖所示。

首先，爲了增加網絡對於細節特徵的表達能力，京東 AI 事業部將原始的圖像區域進行打亂，然後同時將原始圖像和“打亂”後的圖像輸入網絡進行訓練。這樣，原先全局的結構信息將不復存在，如果要同時同時識別原始圖像和“打亂後”的圖像，網絡只能依據更爲細節的特徵。但是打亂帶來了兩個問題，一個是打亂帶來的區域邊緣的噪聲，這將對網絡性能帶來負面的影響；另外一個是全局信息的丟失，雖然細粒度識別任務中存在大量只能依據細節判斷類別的樣本，但是還是存在外貌差異較大的樣本，比如麻雀和海鷗，所以不能讓這個信息完全丟失。爲了解決這兩個問題，京東 AI 分別使用了對抗學習和重構網絡。對抗網絡的作用是幫助網絡判別由於打亂帶來的邊緣噪聲。觀察打亂前後的圖片，其中最明顯的差異是打亂的圖片會存在大量的邊緣跳變，通過使用一個二分類來對打亂前後的圖片進行識別，可有效降低對於邊緣噪聲的關注度。重構網絡作用於特徵圖，首先對特徵圖進行降維，然後通過一系列數學變換將其轉變爲一個位置矩陣，矩陣上每一個節點包含兩個值，分別表示網絡預測的該區域在原圖之中的位置，基於該預測結果和真實的位置擾亂情況計算位置重構損失。

在整體的網絡訓練時，通過同時考慮分類損失、對抗損失和位置重構損失，使得 backbone 網絡既能關注局部細節，又能有效對抗邊緣噪聲，同時又能一定程度的保留全局信息，從而獲得較好的細粒度特徵表達能力。
該方法在訓練時不依賴額外標註信息(如特定位置標註)，在測試時不增加額外的計算開銷即可顯著提升分類準確率，同時增加參數量僅爲 ResNet50 的0.034%，即在新增加非常少量參數的情況下就可以較大提升分類模型性能，可以有效應用到包括 ResNet，ResNeXT, SENet，VGGNet 在內的多種主流分類模型。該方法在 CUB-200-2011，Stanford Cars，FGVC-Aircraft 等幾個主要的細粒度圖像識別數據集上都取得了領先的指標。同時這個算法有非常好的推廣性，在不同的數據集上都有非常好的性能，在今年 CVPR 的 iMat Challenge（商品識別）、Fieldguide Challenge（蝴蝶和飛蛾識別）比賽中均取得第一名的成績。目前，這項技術已經應用於京東菜品識別、商品識別、人員的身份識別、時尚標籤識別等場景中。相關代碼也已開源在 https://github.com/JDAI-CV/DCL。

通常來說，一個傳統的對話系統由五個主要部分組成：
1.語音識別（ASR）將原始的語音信號轉換成文本信息；
2.自然語言理解（NLU）將識別出來的文本信息轉換爲機器可以理解的語義表示；
3.對話管理（DM）基於對話的狀態判斷系統應該採取什麼動作，這裏的動作可以理解爲機器需要表達什麼意思；
4.自然語言生成（NLG）將系統動作轉變成自然語言文本；
5.語音合成（TTS）將自然語言文本變成語音輸出給用戶。

上圖所示爲語音交互系統的整體流程。圖中分別爲剛剛介紹的對話系統中的五個模塊。這個架構圖能更清晰地看到每個模塊的輸入輸出，以及各模塊之間的協作關係。

其中，NLU 是非常重要的模塊之一。NLU 的目標是將文本信息轉換爲可被機器處理的語義表示。其涵蓋領域非常廣泛，包括句子檢測，分詞，詞性標註，句法分析，文本分類/聚類，文字角度，信息抽取/自動摘要，機器翻譯，自動問答，文本生成等多個領域。NLU 有三個基本功能，即領域分類和意圖識別、槽填充。

業界實現 NLU 的一種基礎做法是將基本分類和意圖分類兩個模型組合起來。常規的優化方法包括 Single-Label 和 Multi-Label。在工業界最常用的是 Single-Label，但其實 Multi-Label 是相對來說更合適的做法。同時還包括 Multi-model、Multi-Cast、Big-model 與 Small-model。

目前，基於 RNN 的深度學習模型在意圖識別和槽位填充領域得到了大量的應用，《Attention-Based Recurrent Neural Network Models for Joint Intent Detection and Slot Filling》中介紹了使用 Attention-Based RNN 模型進行意圖識別和槽位填充的方法，作者提出將“alignment information”加入 Encoder-Decoder 模型，以及將“alignment information”和“attention”加入 RNN 這兩種解決槽位填充和意圖識別問題的模型。

實體抽取則可以描述成一個序列標註問題，輸入是文本特徵，輸出是每個詞或每個字屬於實體的概率。傳統的機器學習模型，如 HMM、CRF 都可以用來解決該問題。如果數據量夠大，也可以使用基於神經網絡的方法來做意圖識別和實體抽取，通常可以取得更好的效果。

和基於規則的 NLU 相比，基於統計的方法完全靠數據驅動，數據越多效果越好，同時模型也更加健壯。缺點是需要訓練數據，尤其是如果使用深度學習，需要大量的數據。在實踐中，京東將這兩種方法通常結合起來使用：1）沒有數據的時候先基於規則，有數據了逐漸轉爲統計模型；2）基於統計的方法覆蓋絕大多數場景，在一些極端的場景下用基於規則的方法來保證效果。

人類對話與對話系統一個重要區別是它是否與現實相結合。結合外部知識庫是一種有可能彌補對話系統與人類之間背景知識差距的方法。

常用的深度學習模型引入知識有三種方法：第一種是將文本向量和知識向量拼接到一起然後做分類；第二種是將知識向量通過門控控制文本向量的輸出；第三種是將前兩種方法結合，不僅用門控引入文本向量，同時引入知識向量。基於此，根據數據的不同，京東 IOT 做了不同的嘗試。例如在 Memory Network 方面，京東 IOT 將普通的文本向量直接做預測輸出，將（B）與向量相乘形成一個權重，通過權重加權求和引入知識。

除此之外，京東 IOT 利用“召回+排序”的方法，包括文本召回、語義召回以及 ANN 召回，以及基於表達和和基於交互的排序，增強面向大規模文本庫糾錯系統/文本匹配的性能。

語音合成，又稱文語轉換(Text To Speech,TTS)，是一種可以將任意輸入文本轉換成相應語音的技術。

一個文本轉語音的合成系統通常包含三個處理階段，即文本處理、聲學參數預測和聲碼器。文本處理包括歸一化、分詞、多音字等；聲學參數預測將文本特徵轉換成聲學特徵；聲碼器則是把聲學特徵返合成聲音。

文本處理將輸入的文本轉換成細粒度的文本特徵。它包括文本歸一化、分詞、詞性標註、Grapheme to Phoneme（G2P）和多音字處理等環節。其中，文本歸一化解決了文本中的詞例還原及漢語文本同形異義詞的排歧等問題；分詞將漢語文本切成一個個詞語；詞性標註會是註明每個詞是名詞、動詞或者形容詞等，有助於獲取哪裏是重音、哪裏需要停頓等韻律信息；G2P 則是將漢字變爲拼音的過程，其中包括對多音字的處理。通過以上方法提取文本特徵，將文本變成一個由文本特徵組成的序列。

聲學參數預測建立了從文本特徵到聲學特徵的映射。前幾年，業內普遍使用“時長模型+聲學模型”的方法預測聲學參數。隨着技術的發展，特別是Sequence-to-Sequence 模型的出現，使得預測聲學模型的技術發生了較大的變革。Sequence-to-Sequence 是學習序列到序列的模型，在機器翻譯（NMT）等領域應用廣泛。

Tacotron 模型即是在 Sequence-to-Sequence 基礎之上發展出來的。Tacotron 目前推出了兩代，Tacotron2 是最近主流的一個模型，它對輸入要求很低，只需要輸入音素序列，即可輸出 Mel-Spectrum 序列。結合 WaveNet 聲碼器，即可合成出高質量的聲音。雖然 Tacotron 聲稱是端到端的語音合成系統，但是我們看到如果沒有文本歸一化的處理，輸入任意字符，合成正確的聲音還是比較困難的。下圖是 Tacotron2 的系統結構，來源於 [3] 《NATURAL TTS SYNTHESIS BY CONDITIONING WAVENET ON MELSPECTROGRAMPREDICTIONS》。

聲碼器的作用是提取語音信號的特徵參量並且有能力恢復出原始語音。業界比較著名的聲碼器包括 STRAIGHT 和 WORLD等。此外，近年來出現的基於神經網絡的聲碼器也可以取得較高的重構語音質量，比如 WaveNet，LPCNet 等。

京東的語音合成技術已經在京東讀書，京東京魚座 AI 音箱等產品落地。結合語音識別，語義理解等技術，京東的語音合成技術也已經在客服這個更加複雜的場景落地。今年，京東上線了語音智能客服機器人和物流外呼機器人等項目。語音智能客服機器人在6月18日當天接待超過兩萬人次，爲用戶提供智能語音應答服務，針對性的緩解了顧客電話諮詢排隊現象。

結合京東在零售方面的優勢，京東人工智能事業部推出了全鏈路、跨行業的通用對話技術平臺。全鏈路是指在售前、售中、售後的任何環節，通過任何諮詢渠道，通用對話技術平臺都可以幫助商家提供更好的服務。在接到客戶的諮詢後，機器人會首先接待，如果不成功就會轉人工客服。人工客服在接待的過程中，通用對話技術平臺會對前面的交流進行自動總結，自動將用戶的信息查詢出來，並且生成用戶信息小結，甚至可以幫助生成回覆的答案。在接待結束後，會幫助商家檢查客服質量，沉澱數據用於對話機器人的再訓練等等。目前，京東智能客服已經在商務部、華西醫院等政務、醫療行業落地。

在電商領域，由於商品庫存數量巨大，訂單碎片化，且配送需求多種多樣等特點，倉庫物流作業難度較其他場景更加複雜，建設無人倉難度非常大。因此，儘管無人化是自動化倉儲物流系統的發展方向和目標，但長期以來僅僅停留在概念階段。但是，京東讓這一理想變成現實，實現業內首個全流程無人倉，覆蓋貨物入庫、存儲、包裝、分揀的全流程無人化作業，該無人倉在“618”期間經受住了海量訂單的檢驗，大幅提升了作業效率及準確率。

無人倉系統支撐了京東物流中小件、大件、冷鏈、B2B、跨境業務的倉儲運營及衆包，目前已建設 600 個倉庫，服務人數超過 500 萬，擁有 20 多座“亞洲一號”，其系統圍繞着倉庫、貨主、商品、庫存、單據組成了入庫、在庫、出庫衆多形態的業務作業模式。

下圖爲無人倉系統的整體架構：

最底層是雲平臺和物聯網平臺，系統都在京東雲平臺上運營，物聯網平臺則傳感器、傳感網絡等；其次是設備控制層，包含各種設備；再往上是調度層，是核心的一層，無人倉的效率主要是調度層；最上面是常規的業務系統，比如說製造業、流通領域、教育行業。

從無人倉的作業流程來看，核心技術主要包括自動存儲、混合碼垛、視覺檢驗、自動揀貨與分類等。例如，在貨物入庫、打包等環節，京東無人倉配備了 3 種不同型號的六軸機械臂，應用在入庫裝箱、揀貨、混合碼垛、分揀機器人供包 4 個場景下；另外在分揀場景中，京東引進了3 種不同型號的智能搬運機器人執行搬運任務，包括天狼智能存儲系統，地狼貨到人系統，AGV“小紅人”分揀系統等，可以覆蓋倉內作業的絕大部分場景。

除此之外，京東使用了 2D 視覺識別、3D 視覺識別、以及由視覺技術與紅外測距組成的 2.5D 視覺技術，打造了“物流視覺智能中心”平臺，記錄數據，爲這些智能機器人安裝了“眼睛”，實現了機器與環境的主動交互。目前，該平臺可以完成 IoT 集中化、數據管理集中化、計算資源集中化。

基於“物流視覺智能中心”平臺，在軟件方面，京東物流自主研發了能操控全局的智能控制系統——“倉儲大腦”，從倉儲到揀貨、打包，再到分揀、出倉，所有環節的無人化操作都由“倉儲大腦”自主決策與指揮。例如，在上海“亞洲一號”全流程無人倉內，智能大腦能在 0.2 秒內計算出 300 多個機器人的 680 億條可運行路徑，並做出最佳選擇。

人工智能算法是無人倉技術的核心，更是京東的優勢所在，其在倉儲過程的各個環節中助力作業效率的大幅提升。例如，利用算法自動推薦最適合商品的存儲貨位；平衡揀選區和倉儲區的庫存量分佈，並決定最適合被揀選的貨位和庫存數量等。而在移動機器人得到大規模應用的無人倉中，京東在算法上的優勢更是得到了充分的展示，如機器人調度及路徑規劃算法等。

當下，京東雲作爲京東集團各項技術能力的重要輸出窗口，正以全新的視角爲合作伙伴提供開放、賦能的平臺，並開放 23 個 AI 接口，秉承合作共贏的態度，與開發者一起，攜手邁向 AI 新未來，點擊閱讀原文即可 0 元試用京東 AI 接口～

關注京東雲開發者社區微信公衆號
回覆“PPT0720”獲取課程視頻&PPT。

點擊"京東雲"瞭解更多相關產品信息

參考資料
[1] https://github.com/JDAI-CV/DCL
[2]《Attention-Based Recurrent Neural Network Models for Joint Intent Detection and Slot Filling》
[3]《NATURAL TTS SYNTHESIS BY CONDITIONING WAVENET ON MEL SPECTROGRAMPREDICTIONS》https://arxiv.org/pdf/1712.05...

技術沙龍 | 0.2秒計算680億條路徑，揭祕京東CV/NLP在智慧零售領域的探索與實踐

《Python進階》學習筆記

Leetcode 3161. 物塊放置查詢

leetcode 60 排列序列

一個docker容器暴露多個端口

微服務實踐之使用 Visual Studio 2022 調試Dapr 應用程序

wpf附加屬性理解 WPF附加屬性

區塊鏈究竟是如何工作的?

技術沙龍|京東雲區塊鏈進校園-京東雲&深圳大學線下沙龍分享回顧

落地即王道，鎖死企業智變CP——雲+AI

乾貨 | 京東技術中臺的Flutter實踐之路

乾貨 | 把Flutter擴展到微信小程序端的探索

https://yachay.unat.edu.pe/blog/index.php?comment_area=format_blog&comment_component=blog&comment_co

linux以太網驅動總結