用AI「馴服」人類幼崽，手頭有娃的可以試試

爲了能安心追劇，技術宅奶爸都做了些什麼……

選自 Medium，編譯機器之心

長期以來，「奶爸」+「萌娃」一直是一個不被看好的組合，甚至有人說，「父愛如山體滑坡」。不信的話，以下都是證據：

人類幼崽似乎是臺永動機，在一天 24 小時任何時間段裏都有可能向你發難。你能讓自己睡個安穩覺的方法看來是在白天消耗他們的精力，因此人們想出了各種各樣的方法。

當然，並不是所有的奶爸都這麼不靠譜，也有人帶起娃來挺正常的，Agustinus Nalwan 就是其中之一。

Agustinus Nalwan 是 Medium 上的一位博主，曾經從事計算機視覺、3D / 動畫、遊戲開發等方面的工作，目前供職於澳洲最大的汽車交易平臺 carsale.com.au。

他有一個兩歲半的兒子，名叫 Dexie。Dexie 非常活潑，喜歡動物，尤其是老鷹，經常學老鷹在家裏飛來飛去。

孩子的這種舉動一般也就引起家長的「哈哈」一笑，但 Nalwan 可不是一般的家長，他一直在嘗試用技術增添帶娃的樂趣。去年三月份，Nalwan 就開發過一款具有玩具識別能力的系統，可以和兒子互動並根據他手裏的玩具播放相關視頻。

這個項目幫他拿到了英偉達「Jetson Project of the Month: Qrio – an interactive AI bot」活動的大獎，獎品是一臺英偉達 Jetson AGX Xavier。

Jetson AGX Xavier 的配置信息。

這是一種算力不小的開發者套件，曾被京東、美團、菜鳥的無人快遞車用作計算核心。鑑於 Jetson AGX Xavier 配置還不錯，Nalwan 決定用它來幫兒子做一個新玩具，實現他「展翅高飛」的夢想。

新玩具名叫 Griffin（神話中的獅鷲），最終實現效果是這樣的：

當然，奶爸也可以跟着一起玩：

或者自己玩：

這麼好的帶娃經驗當然要分享出來。在最近的一篇博客中，Nalwan 完整地介紹了他打造 Griffin 的完整過程，手頭有娃的可以參考一下。

以下是 Nalwan「從零開始」構建整套姿態識別遊戲的歷程。

物料準備

要實現上圖中的效果，Griffin 需要具備以下模塊：

3D 遊戲引擎：藉助一個用 OpenGL 寫成的飛行模擬器生成帶有山脈、天空和 Griffin 的 3D 魔幻世界。
人體姿態估計：使用 OpenPose 姿態估計模型和 SSD 目標檢測模型來持續檢測玩家的身體姿態，作爲系統的輸入，以控制 Griffin。
動作映射和手勢識別：將身體姿態轉化爲有意義的動作和手勢，如擡起左 / 右翅膀、左右翻滾身體、起飛等。
通信系統：使用 socket 將姿態輸入送進 3D 遊戲引擎。

以下是整個系統所需要的硬件：

NVIDIA Jetson AGX Xavier：這是一個 GPU 驅動的小型嵌入式設備，用來運行以上所有模塊。它可以通過一個簡單的 HDMI 接口支持音視頻輸出。此外，他還有一個以太網接口，方便聯網。你甚至可以插入鼠標和鍵盤在該設備上進行開發和調試，因爲它有一個功能齊全的 Ubuntu 18.04 OS。
TV（帶有 HDMI 輸入和內置揚聲器）：作爲遊戲引擎的顯示器。
攝像頭：我用的是 Sony IMX327。其實這裏只需要 224x224 的圖像分辨率，因此也可以選低端一點的攝像頭。
Blu-Tack：把所有硬件拼接在一起。

Jetson AGX Xavier、 IMX327 攝像頭和 Blu Tack。

實現

1. 構建 3D 遊戲引擎

爲了更好地模擬飛行體驗，Griffin 系統將以第三人稱視角渲染 3D 世界。想象一下在 Griffin 正後方有一個攝像頭看着他所看的地方。爲什麼不用飛行模擬器那樣的第一人稱視角呢？因爲看到鷹的翅膀並同步移動自己的手臂，可以幫助 Dexie 快速學習如何控制這個遊戲，並擁有一個更沉浸式的體驗。

自行構建 3D 遊戲引擎並非易事，可能需要好幾周的時間。現在大多數開發者只使用專門的遊戲引擎，如 Unity 或 Unreal。但是很遺憾，我找不到可以在 Ubuntu OS/ARM 芯片組上運行的遊戲引擎。一種替代方法是找到在 OpenGL 上運行的開源飛行模擬器。這可以保證遊戲引擎能在 AGX 上運行，因爲它支持 OpenGL ES（OpenGL 的輕量級版本）並且得到硬件加速。如果你不想遊戲引擎以龜速運行的話，則這是必要的條件。

幸運的是，我找到了一個滿足標準的 C++ 開源飛行模擬器，並做了以下修改：

① 我用基於目標的系統替換了基於按鍵的飛行控制系統。

這樣我就可以不時地設置 Griffin 身體的目標旋轉角度，之後這一旋轉目標將通過手勢識別模塊自行設置，該模塊可以映射 Dexie 胳膊的方向。

② 我增強了靜態 3D 模型管理，以支持層級結構。

原始的飛機模型是作爲一個剛體移動的，它沒有移動的身體部位。但是 Griffin 有兩個翅膀，需要獨立於身體單獨運動。爲此，我添加了兩個翅膀，使之作爲身體之上的單獨 3D 模型。我可以單獨旋轉每個翅膀，也可以移動 Griffin 的身體，間接移動兩個翅膀。實現該目標的一種恰當方式是構建骨骼動畫系統，將身體部位組織爲樹結構的形式。但是，由於我要處理的身體部位只有三個（身體和兩個翅膀），因此我可以選擇一種簡便的方式。爲了編輯鷹和樹 3D 模型，我使用了一個免費易用的 3D 編輯工具 Blender。

在 Blender 中編輯鷹的 3D 模型

③ 我添加了 Griffin 起飛狀態的樹模型，以及無需重啓應用即可重啓遊戲的遊戲狀態。Griffin 有兩種狀態：站立（站在樹枝上）和飛翔。

④ 我利用 libSFML 添加音效播放：當 Griffin 起飛時，會出現鷹的尖嘯和風聲。

2. 構建人體姿態估計模塊

該模塊旨在檢測來自攝像頭輸入的人體姿態。

具體而言，我們需要知道左 / 右手肘、左 / 右肩膀、脖子和鼻子的位置，才能駕馭 Griffin 的翅膀和身體，並觸發特定的姿勢。OpenPose 是一個流行的開源庫，並具備大量估計人體姿態、手部姿勢和麪部特徵的 AI 模型。我使用的是人體姿態估計 COCO 模型，以 resnet18 作爲骨幹特徵提取器。該模型可以實時檢測 18 個關節點，包括上述我們所需的 6 個點。

COCO 關節點圖

這裏存在一個大問題：OpenPose 基於 PyTorch 框架構建，在 NVIDIA AGX Xavier 中運行速度很慢（4FPS），因爲它無法利用重度優化的 TensorRT 框架。幸運的是，還有一個厲害的工具 torch2trt，它可以自動將 PyTorch 模型移植到 TensorRT 框架中！具體步驟是：安裝 OpenPose，將 PyTorch 轉換爲 TensorRT，下載預訓練 resnet18 骨幹模型。

爲了獲取來自攝像頭的視頻內容，我使用另一個庫 Jetcam。只需要四行代碼，就可以運行。

人體姿態估計

這樣就得到了可以 100FPS 速度運行的人體姿態估計模塊！

經過一些測試後，我發現有時候這個模型會將隨機對象錯誤地識別爲關節點（假正例，如下圖所示），這會給 Griffin 的動作控制帶來麻煩。

3. 使用 Amazon SageMaker JumpStart 構建目標檢測模型

解決該問題的一種方式是添加一個輔助 AI 模型，用目標檢測模塊來提供人體邊界框，這樣就可以排除掉在邊界框以外檢測到的人體關節點了。此外，這些邊界框還可以幫助在一堆人中識別主要玩家，距離攝像頭最近的人應該是主要玩家。

在之前的項目中，我手動訓練過 SSDMobileNetV2 目標檢測模型。這次我選擇使用 Amazon SageMaker JumpStart，只需一鍵操作就可以從 TensorFlowHub 和 PyTorchHub 部署 AI 模型。這裏有 150 多個可選的模型，其中就有經過完全預訓練的 SSDMobileNetV2。

從 Amazon SageMaker Studio 中啓動 JumpStart

在 Amazon JumpStart 中選擇 SSDMobileNetV2 後，只需一鍵操作就可以部署模型。有了目標檢測模型後，我可以爲邊界框以外的關節點添加 exclusion logic，這樣假正例就會少很多！

在人體邊界框以外的關節點被排除在外

4. 構建動作映射和手勢識別模塊

該模塊對於將人體姿態估計模塊檢測到的 6 個關節點動作轉換爲更具意義的輸入至關重要。這包括三種直接的動作映射：

①飛行時的身體轉動：

用於控制 Griffin 飛行時的方向。身體轉動可以通過橫軸和左右手肘向量之間的夾角進行計算（下圖上）。在飛行時，兩隻翅膀基於這一轉動角度同步移動。選擇手肘而不是手腕是爲了最大化可見度，因爲手腕經常會掉出攝像頭視角或被其他身體部位遮擋住。

②站立時的翅膀旋轉：

這純粹是出於美觀，爲了讓遊戲更具趣味性，給人一種站立的時候可以單獨控制每個翅膀的印象。這通過橫軸與肩膀 - 手肘向量之間的夾角進行計算（下圖下）。最終的翅膀旋轉角度會添加 15 度，以加大翅膀的動作，畢竟人長時間舉高胳膊會很累。

身體轉動和翅膀旋轉時的動作映射

③蹲伏：

這是另一個美觀動作，可以讓人感受到能夠控制 Griffin 起飛前的蹲伏姿勢。這通過脖子 - 鼻子向量和肩膀向量之間的長度比進行計算。蹲伏得越深，脖子和鼻子之間的距離越短，而左右肩膀之間的距離保持不變，因此長度比變小。

蹲伏動作映射

④ 起飛姿勢：

當左右肩膀之間的中心點在一秒內上下移動的幅度超過閾值時，則該動作會被識別爲起飛姿勢。閾值是肩膀之間的長度。當這一動作被觸發時，Griffin 會跳下樹枝，開始飛翔。

⑤ 遊戲復位姿勢：

當左右肩膀的水平位置反轉時則爲遊戲復位姿勢，如玩家背對攝像頭。遊戲將復位，Griffin 回到站在樹上的姿勢，準備下一次飛行。

起飛和復位手勢識別

5. 通信系統

現在，我們完成了三個主要組件，只需要將它們粘合在一起就行了。

我們需要將姿態估計模塊檢測到的人體關節點發送至手勢識別模塊，這個任務比較簡單。但是，將動作和姿勢映射結果發送至 3D 遊戲引擎就不那麼簡單了，因爲遊戲引擎是用 C++ 寫的。你可能會疑惑爲什麼不用 Python 構建 3D 遊戲引擎，原因在於沒有靠譜的方式來使用 Python 訪問 OpenGL。此外，即使可能，我也不想花費好幾周時間將 C++ 轉換爲 Python 代碼。

此時我需要以最小花銷高效地在這二者之間傳遞信息。對於遊戲引擎而言，最小花銷是非常重要的因素，輸入控制器和動作發生之間出現 100ms 的延遲都會導致玩家失去沉浸式體驗。因此，兩個單獨應用之間的最好通信媒介是 socket。由於這兩個應用在同一臺計算機內，因此延遲會在 5ms 以內。

在 C++ 中，我們簡單地使用 sys/socket 庫，而在 Python 中，我們可以使用 socket 框架。從現在開始，我把手勢識別和姿態估計模塊稱作 Python app，該客戶端發送五種信息：roll_target、lwing_target、rwing_target、body_height 和 game_state。把 3D 遊戲引擎稱爲 C++ app，充當監聽並不斷接收上述信息的服務器。

爲了將這五種信息 / 變量正確地從 Python 映射到 C++ 上，在發送之前我們需要將其放置在 Python C-like 結構中。

class Payload(Structure):
 _fields_ = [(“roll_target”, c_int32),
 (“lwing_target”, c_int32),
 ("rwing_target", c_int32),
 ("body_height", c_int32),
 ("game_state", c_int32)]

在 C++ app 中，它們以本機 C 結構形式接收。

typedef struct payload_t 
{    
    int32_t roll_target;    
    int32_t lwing_target;
    int32_t rwing_target;
    int32_t body_height;
    int32_t game_state;
} payload;

從下面的架構圖可以看出，通信層由一個位於 Python app 中的客戶端模塊和一個位於 C ++ app 中的服務器模塊組成。

Griffin 的整體架構圖

校準與測試

準備就緒後，我設置了 Griffin 系統以執行校準和測試。這套系統的性能要比我預測的好很多，在執行所有實時 3D 渲染和姿態估計時一直都保持在 60FPS 的幀率，看來英偉達的 Jetson AGX Xavier 性能強大不是說說而已。在下面的視頻中，你可以看到校準和測試的過程。這個視頻幀率較低，是因爲我在 Ubuntu 桌面上以 15FPS 錄屏，儘量減少對 Griffin 的影響。

Griffin 系統的校準與測試

起飛

最後，是時候讓 Dexie 用 Griffin 嘗試第一次飛行了，這纔是真正的大考。我在客廳裏架設好了系統，我兒子一直在不耐煩地等待行動。

Dexie 使用 Griffin 飛行的經歷

我只演示了一遍如何控制 Griffin 系統，跳一下就是起飛，展開手臂依靠姿勢控制翅膀，Dexie 就學會了。由於遊戲是第三人稱視角，所以他很快就發現畫面中翅膀的運動是直接和自己姿勢同步的。隨後他就開始享受自己的飛行體驗了。沒有什麼是比你自己更好的遊戲控制器了——記住喬布斯在發佈第一代 iPhone 時嘲笑手寫筆時所說的話。

有意思的是，Dexie 有次快要撞山時，他奮力揚起手臂想要來個急轉彎，但由於我設置了最大旋轉角度限制，Griffin 不允許他飛特別極限的角度，隨後他就撞了山…… 當時是這個樣子：

*Dexie 在 Griffin 上的首飛 *https://v.qq.com/x/page/b3220ecm918.html

他上來就玩了半小時，發瘋似地揮舞着手臂，直到疲倦襲來。最重要的是，那天晚上他睡得很香，對我們來說這是一次勝利！我有更多時間追劇了 :)

總結

構建這樣一套系統讓我學到了很多，同時獲得的樂趣也很多。總體來說我學到了：

Torch2trt 是一個很強大的工具，可以自動將 PyTorch 模型轉化爲 TensorRT 版，讓 AI 模型在 Jetson AGX Xavier 上運行地更快。很多最先進的 AI 模型都是用 PyTorch 構建起來的，但手動將它們移植到 TensorFlow 上可不是好的體驗。
英偉達 Jetson AGX Xavier 的性能非常強大！很多人說它可以實時處理 30 個 1080p 視頻流的計算機視覺模型處理任務，看來的確是這樣。
亞馬遜 SageMaker JumpStart 提供了大量流行的 AI 模型，並讓它們非常易於部署。
構建 3D 遊戲引擎的經歷讓我重拾之前作爲遊戲和電影 SFX 開發人員的經歷，再次用起了生疏的 OpenGL、C++ 和三角學方面的技能。
說到動作識別遊戲，人們自然會想到 Xbox——我本可以用 Unity 引擎和 Kinect 傳感器在 Xbox 上構建一個 Griffin，但是這樣不就沒有太大意義了嗎？有時從頭構建一套系統纔是樂趣所在。
扮演老鷹是一個很累的工作，尤其是長時間擡起手臂這件事。不過真正的老鷹是通過上升氣流獲得幫助並滑翔在天空中的。

不知這樣的一段經歷，是否能給你一些啓發？最後，作者計劃在近期將項目代碼開源出來。

參考內容：

https://agustinus-nalwan.medium.com/making-my-toddlers-dream-of-flying-come-true-with-ai-tech-85e40d7144a2

AI圖書推薦