小米產品背後的AI技術實踐分享

2020年，小米發佈了小米10、Redmi K30 Pro等系列產品，這些產品背後，AI技術又是如何爲小米賦能的？

在小米近期發佈的小米10青春版手機上，小米手機官方表示該產品支持電影相機、擁有AI魔法分身的功能。此前，在Redmi K30 Pro旗艦新品發佈會上，Redmi小愛觸屏音箱支持手勢識別及童臉識別等功能，小米的自研技術不斷賦能小米產品。本文就來探究近期小米發佈的產品中，蘊藏了哪些AI技術。

AI魔法分身功能

AI魔法分身是小米10青春版的重磅產品，從字面意思就可以瞭解，AI魔法分身可以在拍攝中實現多個人物同時存在，無需三腳架即可實現，操作簡單易學。

AI魔法分身功能是基於小米AI實驗室的自研算法實現的，這一技術將AI視頻目標檢測算法、實時SLAM場景建模算法、AI視頻實時人像分割算法三大算法結合在一起，針對兩段手持拍攝視頻，實時逐幀進行對齊拼接，據悉，這是業界首創的AI視頻對齊技術。

小米AI實驗室視覺團隊認爲，創作+AI是未來計算機視覺發展的重要趨勢之一，通過將複雜的視頻派件剪輯和創作過程引入創新的AI算法，實現一鍵的智能化操作。此前，Vlog的智能運鏡技術和Mi剪輯中的智能模塊匹配都是這一理念的延續。後續，視覺團隊將開發更多引領潮流的AI視頻創作工具，爲視頻創作者提供便捷的服務。

AI通話功能

AI通話產品中，Android端使用原生Android APP方式進行實現，該產品是系統級別的APP，擁有較高的權限。Android端通過接入小愛SDK的方式獲得AI能力，包括ASR、NLP、TTS等。通過小愛SDK的能力可以輕鬆的實現人機對話。服務端使用小愛中控架構，垂域實現集成NLP模型使意圖識別更準確、推薦語料更智能。

搭載AI通話功能的MIUI 12手機讓聾啞人無障礙使用手機成爲可能。在內測過程中，AI通話收到了一些聾啞人外賣騎手的反饋，他們希望手機能夠支持撥打電話功能，研發團隊根據特定人羣的具體訴求，在AI通話技術中實現了該項功能。用戶可以自定義開場語、自由切換自動應答或手動回覆，還可以定向自動接聽，再也不會受到騷擾電話的影響。

運動健康功能

小米在幾年前開始關注運動健康領域，此次MIUI12的運動模式識別功能的背後是小米自研的靈弦算法，是小米深度學習技術在運動健康領域的積累落地。運動模式識別本質上是分類，靈弦算法解決了移動設備裝戴位置不同造成的識別干擾，保障了最終的用戶體驗。靈弦算法基於小米MACE Micro實現，不僅數據準確精度高，而且能耗低，一整天的耗電量小於1%（以小米10爲例，24小時耗電量9.6mAH ——數據經泰爾實驗室測試認證）。

MACE Micro是2020年小米針對小型、低功耗微控制器新增的AI引擎，微控制器使用場景多是只需要基本運算的家電和部分物聯網設備，MACE Micro的推出及應用，用以滿足此類設備的超低功耗需求，MACE Micro在可移植、速度、內存、存儲等多個層面都具備較大優勢。MACE Micro不依賴於任何操作系統、文件系統以及運行時的支持，對算力密集型算子進行了訪存優化，對模型數據進行了預處理，使得模型無需初始化即可運行推理，通過對模型的算子進行依賴分析，引入內存複用技術，大大減少了內存的佔用，核心庫存儲佔用非常小，同時引入bf16格式的支持，模型存儲體積減小一半。

聲控拍照功能

近年來，智能語音技術已經滲透到生活的各個角落中，人們使用智能語音功能來查看天氣、定鬧鐘、打開APP等，而在語音交互中，免喚醒的快捷指令詞因其即說即執行的高效交互特質而受到越來越多的關注，落地也更爲廣泛。MIUI12開發版系統中，相機應用就支持了這樣一個語音AI快捷指令詞——聲控拍照。打開這個開關後，只需要說兩個字：“茄子”，或者“拍照”，相機應用就能自動完成拍攝，對比傳統按快門鍵的方式，可控性更高、便捷性更強。

相機AI聲控拍照功能，是小米AI實驗室語音團隊完全自研的語音算法。根據喚醒算法負責人莊偉基介紹，聲控拍照使用的是DNN-HMM框架算法，基於深度學習的多指令詞檢測，在拍照場景去實時檢測音頻流中是否出現了預先設定的關鍵詞，如果出現，則自動替用戶完成“拍照”的操作，實現了語音即能免喚醒拍照的能力。算法準確性高、誤喚醒低，並在不同場景、機型上都表現出了比較強的魯棒性，高適應性，準確、快速、方便，極大地提高了拍照體驗。語音團隊也將持續預研在更多設備、場景下的快捷指令詞，後續也將在小米系列設備中上線。

手勢識別功能

手勢是人們日常交流中非常重要的溝通方式，手指姿態的變換可以表達豐富的信息。手勢識別功能則是通過人工智能這一工具，在人與機器之間架起了橋樑，使機器能看懂手勢所傳遞的信息，爲人機互動又增添了一種新的模式。

在手勢識別的技術中，主要包括兩個模塊：手掌定位和手勢分類。其中手掌定位算法負責從整個圖像中將人的手部精準定位出來，然後將定位出來的手部區域輸出給手勢分類算法，由後者將手部的形狀與我們熟悉的手勢信息進行映射分類，從而使機器能按照手勢進行相應的操作。

據小米AI實驗室視覺團隊視頻組負責人趙雄表示，由於個體差異性和表達習慣的不同，用戶做出的手勢差異很大，手勢識別算法需要將符合定義的不同形態的手勢全部映射成正確的分類，精準響應用戶的需求。除此之外，還需要甄別出定義之外的手勢並將它們忽略，以免引起用戶意料外的誤操作。針對這個問題，視覺團隊採集了大量形態各異的手勢正樣本和負樣本，將它們納入訓練集中，使算法既可以儘可能地識別出有效手勢，又可以過濾無效手勢，進一步提高準確率。

以點贊手勢爲例，針對不同人的表達習慣，視覺團隊採集了大量的不同手部朝向和角度的樣本，儘可能涵蓋更大的範圍，同時也採集了跟點贊比較接近容易引起混淆的負樣本（比如拳頭），同步訓練，保證了這個手勢的召回率和準確率。

此外對於形態比較接近的手勢，如點贊快進和快退，爲了進一步明確規範，視覺團隊以拇指角度爲區分標準，對這三個手勢的覆蓋區間進行了清晰的劃分，既保證了不同用戶操作的魯棒性，又增強了靈活性，進一步提升了用戶體驗。

手勢識別功能一經上線，即可支持收藏、播放、暫停、快進、快退5種手勢控制，可以在聽音樂、看視頻、鬧鐘響鈴等場景下，通過手勢輕鬆實現無觸碰的交互新體驗。當用戶使用抖音、愛奇藝、優酷、騰訊視頻、芒果TV等平臺時，可以使用手勢進行操控，滿足用戶在更多場景下與音箱交互的智能體驗。

童臉識別功能

音箱作爲一個家庭產品，如何實現不同家庭成員之間模式的無縫切換，是困擾開發者許久的一個問題。這一次Redmi小愛觸屏音箱使用童臉識別，實現了當孩子使用音箱時，可以自動進入兒童模式，開啓兒童保護功能。

據小米AI實驗室視覺團隊項目經理崔雪峯講述，童臉識別功能中，主要包含人臉檢測、關鍵點定位、人臉對齊和年齡估計四個算法模塊。其中，前三個模塊負責從圖像中定位人臉區域並轉換成標準的人臉圖像；年齡估計模塊對標準人臉圖像進行處理，預測年齡值。

小米童臉識別算法速度快、識別穩定、抗干擾能力強，能夠應對各類家庭兒童使用場景需求。未來童臉識別技術將進一步細化年齡檢測精度，爲內容推薦提供依據，更加精準地針對不同年齡段兒童、青少年等提供豐富多樣的娛樂、影視、音樂、學習、資訊、信息類資源。

對於兒童來說，智能音箱將會既是一臺影音播放器、故事機，也是一臺適齡玩伴的遊戲機，甚至可以是一臺學習機，爲幼兒早教、K12成長教育、語言、技能、學科等專業類教育提供線上教學服務。

結語

小米AI技術致力於從用戶實際需求出發，以提升用戶體驗爲理念，讓用戶在使用智能設備時更加便捷。未來，小米將繼續在AI技術領域深耕，不斷地爲用戶帶來更好的使用體驗。

小米產品背後的AI技術實踐分享

AI魔法分身功能

AI通話功能

運動健康功能

聲控拍照功能

手勢識別功能

童臉識別功能

結語

「Pygors跨平臺GUI」1：Pygors跨平臺GUI應用研究

[轉帖]

python列出centos7內存使用前50的進程信息

「Pygors跨平臺GUI」2：安裝MinGW-w64、MSYS2還是WSL2

一鍵自動化博客發佈工具,用過的人都說好(掘金篇)

通義千問 2.5 “客串” ChatGPT4，你分的清嗎？

Garnet：微軟官方基於.NET開源的高性能分佈式緩存存儲數據庫

Flink執行圖

Java響應式編程

評估統計算法在銀行僞造鈔票檢測中的價值

被美列入投資禁令清單，商湯科技推遲香港IPO

洞察數據庫變革趨勢，亞馬遜雲科技正在憑藉這項技術改變着遊戲規則

DeepMind新研究登上Nature封面，這一數學難題被AI攻破了

請不起日薪2萬+的網絡安全人才，就做不好數字化轉型嗎？

2022 IEEE Fellow新晉名單出爐，王海峯、李飛飛等AI大佬入選，華人學者近三成

https://yachay.unat.edu.pe/blog/index.php?comment_area=format_blog&comment_component=blog&comment_co

linux以太網驅動總結