OpenPose學習筆記

原創

2020-02-25 08:48

目錄

2.1. 多人的2D姿態估計難點：

2.2. 算法原理：

2.3. 損失函數：

2.3.1. CMP(confidence maps for part):

2.3.2. PAF(part affinity fields):

2.3.3. 使用PAFs進行多人解析：

3. Openpose環境搭建及demo測試

3.1. 遇到的問題：

3.2. demo測試結果：

1.摘要

本文重點解讀openpose開源項目的論文之一openpose:Realtime Multi-Person 2D Pose Estimation using Part Affinity Fields，並搭建openpose環境，測試openpose demo。

2.論文解讀

論文講述了多人圖像中2D姿態檢測方法PAF（Part Affinity Fields），即部分親和力字段。採用bottom-up的方式，先檢測出各個關節點，再將它們與個體聯繫起來，實現了對多人的實時檢測。

2.1. 多人的2D姿態估計難點：

（1）人數規模及人的位置不確定；

（2）人與人之間存在干擾，使關節關聯變得困難；

（3）人數越多複雜度越高，實時性能越差。

Top-down方式先檢測出單人，再做姿態估計，這種方式實時性差，且姿態估計的準確性依賴於人員檢測器。而bottom-up方式在最終解析時成本高，難度大。文中提到的PAF是一組對位置和圖像上肢體方向進行編碼的2D矢量場。

2.2. 算法原理：

圖1 openpose原理圖

輸入原始圖，由VGG-19的前10層初始化並進行微調，生成一組特徵映射F作爲第一階段的輸入。在此階段，網絡產生一組PAFs，即像素點在骨架中的走向（肢體），上圖中藍色部分，，其中爲第1階段推理的CNNs。在隨後的每一階段，將前一階段的預測與原始圖像特徵F串聯起來，用於產生精細的預測，迭代次後進行置信度S：關鍵點（人體關節）的循環，上圖橙色部分。

此圖是在論文（CVPR, 2017）的基礎上的更新（IEEE,2019）（目前網上介紹的都是以前的結構），將每個7x7卷積核替換爲3個連續的3x3卷積核，在減少計算量的同時保留了接收域。前者的操作數爲2 x -1=97，而後者僅爲51。該網絡的非線性層數增加了兩倍，既能保持較低的層次特徵，又能保持較高的層次特徵。2017paper在每個階段都對PAF和置信度圖分支進行了細化。但是PAF提高了置信度圖的結果，反之不成立。即查看PAF通道輸出，就可以猜測出身體部位的位置，但是通過一堆沒有其他信息的身體部位把它們解析成不同的人。因此，現在每個階段的計算量減少了一半。

2.3. 損失函數：

其中L*爲groundtruth PAF, S*爲groundtruth置信度圖，W爲像素p處註釋缺失時W(p)=0的二元掩碼, 如果某個關鍵點標註缺失則不計算該點。該掩碼用於避免在訓練過程中懲罰真實的正向預測。

2.3.1. CMP(confidence maps for part):

關鍵點檢測。通過圖像中標註的2D點xj,k計算S的groundtruth(S*)，其中xj,k表示圖片中第k個人的第 j 種關節。計算方法：Sj*符合正態分佈，當像素點P接近註釋點xj,k時，達到正態曲線的峯值，則每張圖像中第j種關節的S，爲圖像中k個人的正態分佈峯值。

,

2.3.2. PAF(part affinity fields):

關節連接。

，其中

2.3.3. 使用PAFs進行多人解析：

多人檢測問題轉化爲二分圖匹配問題，並用匈牙利算法求得相連關鍵點最有匹配。

3. Openpose環境搭建及demo測試

Win10系統下環境搭建流程如下：

圖2 環境搭建流程

3.1. 遇到的問題：

（1）根據網上教程裝CUDA時，運行CUDA smples出錯，VS2019無法加載項目。原因是自定義安裝過程中去掉了VS Integration。重新安裝，組件默認勾選。其他步驟按照CUDA官網教程即可。

（2）OpenPose模型庫下載的時候速度特別慢，每秒3k/s，而且經常中斷。耗時了兩天時間，最後利用多線程下載解決了問題。

（3）Cmake時出現以下問題：

圖3 cmake時的報錯信息

原因查看下圖，發現Caffe的目錄與我下載解壓目錄不一致，解壓時選擇了到caffe下一級目錄，導致找不到文件。此處直接下載了github上openpose提供的對應版本caffe（20190516），沒有使用之前anaconda3中下載的。

圖4 錯誤解決後的信息狀態

3.2. demo測試結果：

(a)

(b)

(c)

默認開啓電腦自帶攝像頭（a）（沒有外接攝像頭，截不到全身截圖，尷尬。。。），(b)爲本地視頻（mp4格式），(c)爲openpose中提供的視頻（avi格式）。更改方法是更改openposedemo的外部依賴項中的flags.hpp文件中第36行video值，如下：

圖5 更改數據源方式

如果要更改視頻源爲圖片，保存結果，保存json等設置，也均在此文件中設置。具體設置方法參考對應的屬性說明進行設置。

發表評論

所有評論

還沒有人評論，想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.

相關文章

走進京東“卓越研效架構師”首期研習營圓滿收官

五月的北京，春深半夏，花開滿城。由全國雲計算技術行業產教融合共同體牽頭，攜手工業和信息化部電子第五研究所、E³CI軟件研發效能度量工作委員會以及京東雲共同主辦的“走進京東——卓越研效架構師”研習營，於5月17-18日和24-26日在北京京東

2024-05-31 23:55:49

兒童節變身小小音樂家*用ModelArts製作一張AIGC音樂專輯

本文分享自華爲雲社區《兒童節變身小小音樂家*用ModelArts製作一張AIGC音樂專輯》*作者* 華爲雲社區精選。兒童節*如何給小朋友準備一份特別的禮物* 這份AIGC音樂專輯製作攻略一定要收下一段文字靈感就能編織出一曲悠揚悅耳的旋

2024-05-31 11:04:39

金融反欺詐指南：車險欺詐爲何如此猖獗？

青島市人民檢察院在其官方微信公衆號上發佈的梁某保險詐騙案顯示，2020 年以來，某汽修廠負責人梁某、某汽車服務公司負責人孫某，與保險公司的趙某等人相互勾結，收購二手北汽等品牌新能源汽車，併爲這些車輛購買車損險。隨後，他們利用暴雨天氣，故意製

2024-05-30 00:16:51

基於Fluid與JindoCache的大模型訓練加速實踐

隨着人工智能技術的不斷髮展，深度學習模型變得越來越複雜，參數量動輒幾十億甚至上百億。這樣的“大模型”在帶來強大性能的同時，也對訓練過程提出了極高的要求。尤其是在數據加載和計算資源利用方面，傳統的訓練方法往往難以滿足快速、高效的需求。爲此，我

2024-05-28 12:12:15

【終極指南】使用Python可視化分析文本情感傾向

本文分享自華爲雲社區《Python理解文本情感傾向的終極指南》，作者：檸檬味擁抱。情感分析是一種通過自然語言處理技術來識別、提取和量化文本中的情感傾向的方法。Python在這一領域有着豐富的庫和工具，如NLTK、TextBlob和VAD

2024-05-28 10:58:03

AI安全志：英國AI騙保事件增加300%！

最近，英國《衛報》報道稱，一些騙子正在利用人工智能照片編輯軟件篡改照片，以進行保險欺詐活動。這一發現令保險公司震驚，因爲這可能導致汽車保險費用飆升至歷史最高水平。安聯保險公司表示，從2021年至2023年期間，利用應用程序篡

2024-05-28 00:15:50

解讀注意力機制原理，教你使用Python實現深度學習模型

本文分享自華爲雲社區《使用Python實現深度學習模型：注意力機制（Attention）》，作者：Echo_Wish。在深度學習的世界裏，注意力機制（Attention Mechanism）是一種強大的技術，被廣泛應用於自然語言處理（NL

2024-05-27 10:58:44

智能測試持續加碼，大模型引領軟件測試新生態

在軟件行業日新月異的今天，智能測試已成爲提升軟件質量的關鍵環節。大模型的崛起，更是爲軟件測試帶來了前所未有的變革。隨着AI和ML技術的突飛猛進，智能測試得到了快速發展，實現了對測試過程的自動化和智能化管理，顯著提高了測試效率和質量。如今，智

2024-05-25 02:07:17

風控指南：國內車險欺詐呈現四大趨勢

2024年4月11日，國家金融監督管理總局官網發佈國家金融監督管理總局關於《反保險欺詐工作辦法（徵求意見稿）》公開徵求意見的公告。《徵求意見》共6章、37條，明確反保險欺詐工作目標是建立“監管引領、機構爲主、行業聯防、各方協同”四位一體的

2024-05-23 12:16:45

智能高效的IDE GoLand v2024.1全新發布 - 進一步升級AI輔助工具

GoLand 使 Go 代碼的閱讀、編寫和更改變得非常容易。即時錯誤檢測和修復建議，通過一步撤消快速安全重構，智能代碼完成，死代碼檢測和文檔提示幫助所有 Go 開發人員，從新手到經驗豐富的專業人士，創建快速、高效、和可靠的代碼。立即獲取G

2024-05-21 12:19:26

5月21日相聚上海張江！與文心大模型一起共建大模型產業應用生態圈

5月21日，文心中國行將走進上海，在張江科學會堂舉行。屆時，政府、企業與高校的相關專家和業界同仁將現場分享生成式人工智能與大模型最新進展，主要圍繞大模型技術如何賦能產業級應用創新展開探討，還有百度風投從投資視角帶來的觀點，讓參會者全方位瞭解

2024-05-17 00:28:21

網絡爬蟲安全：90後小夥，用軟件非法搬運他人原創視頻被判刑

央視《今日說法》欄目近日報道了一名程序員開發非法視頻搬運軟件獲利超700多萬，最終獲刑的案例。國內某知名短視頻平臺報警稱，有人在網絡上售賣一款視頻搬運軟件，使用軟件的人可以繞過平臺的審覈機制，一鍵“搬運”竊取他人作品非法轉載投稿。警方調查

2024-05-16 00:19:26

探索大語言模型：理解Self Attention| 京東物流技術團隊

一、背景知識在ChatGPT引發全球關注之後，學習和運用大型語言模型迅速成爲了熱門趨勢。作爲程序員，我們不僅要理解其表象，更要探究其背後的原理。究竟是什麼使得ChatGPT能夠實現如此卓越的問答性能？自注意力機制的巧妙融入無疑是關鍵因素

2024-05-14 23:57:26

GPU 硬件指標說明

流處理器：也叫渲染管、着色器。畫面都是由一個又一個像素點組成的，而流處理器就負責這些像素點的渲染工作； RT核心：光追核心，用作於光線追蹤效果； CUDA 核心和Tensor 核心：CUDA Core和Tensor Core，爲G

2024-05-13 22:35:43

舌尖上的AI：人工智能技術正在被“端上”餐桌

來源 | 人民數字FINTECH 責編 | 晉兆雨頭圖 | CSDN 下載自視覺中國 #人工智能技術正在被“端上”餐桌四方食事，不過一碗人間煙火。人工智能作爲一門新的技術科學，正在被人間煙火氣“端”上餐桌。人工智能“洗手”

2024-05-13 21:17:25

24小時熱門文章

最新文章

最新評論文章