原创 CASIA-HWDB2.x 數據集DGRL文件解析(python)
CASIA-HWDB 數據集是最常見的手寫漢字識別數據集,它包含脫機、聯機兩部分,分單字、文本行兩種類型: HWDB1.x:脫機單字,1.0~1.2 三個版本,數據格式爲 .gnt OLHWDB1.x:聯機單字,1.0~1.2
原创 目標檢測之RCNN、Yolo、SSD、RetinaNet與Anchor-Free
1、RCNN系列 1.1 從RCNN到Fast RCNN、Faster RCNN (1)RCNN(2014) Object Detection任務主要包含兩個內容:識別物體,確定位置。在識別物體這一塊,傳統的做法是利用特徵點來表徵
原创 Video Understanding(2)——Temporal Action Detection時序動作檢測
上一篇文章《Video Understanding(1)——Action Recognition動作識別》翻譯於一篇綜述,從這篇綜述可以看到,目前對於視頻的處理方式大概可以分成三類方法:(1)雙流法,利用RGB圖像提取空間信息,利
原创 Face++(曠視)人臉檢測SDK開發流程
1. SDK下載 當前最新版SDK地址 其實整個SDK裏面只用到三個核心文件、三個util腳本,當然如果不想自己創建工程,它裏面有一個demo是可以直接跑的。 2. 核心文件導入 SDK包含三個核心文件: MGFaceppSDK
原创 Markdown編輯器typora集成圖牀插件,輕鬆搞定博客圖片丟失問題
1、IDE工具:typora 優勢: 書寫方便,文檔在編輯完成後迅速轉換爲閱讀模式,效果能夠實時呈現,方便修改調整; 各種公式、插圖、表格、代碼等都能輕易實現,佈局方便; UI界面簡潔優美,操作起來得心應手。 2、圖牀插件:p
原创 matplotlib基本繪圖API集錦
一、基本使用流程 import matplotlib.pyplot as plt # 導入模塊 # 畫布設置 plt.figure(figsize=(12,9)) # 設置圖像尺寸大小,參數值乘以100表示分辨率
原创 Video Understanding(1)——Action Recognition動作識別
1.推薦閱讀 [動作識別綜述_1](本文主要翻譯自該綜述) [動作識別綜述_2](GitHub項目) [動作識別開源集錦](GitHub項目) [競賽](ActivityNet) Kinetics UCF101 HMDB-51 Y
原创 三、OpenCV-python 之 圖像處理(Ⅰ)
1、空間轉換 OpenCV的圖像顏色空間很多,常見的有BGR、HSV等。 cv.cvtColor(input_image, flag) # 空間轉換函數,flag參數多達150多種,常用的cv.COLOR_BGR2GRAY、cv
原创 分類任務之LeNet-5、AlexNet、VGG、ResNet、GoogLeNet
1、LeNet-5 手寫體數字識別模型,是一個廣爲人知的商用的卷積神經網絡, 當年美國大多數銀行用它來識別支票上面的手寫數字。 Lenet-5 原始結構如下圖所示,包括:卷積層,降採樣,卷積層,降採樣,卷積層(實現全連接),全連接
原创 一、OpenCV-python 之 圖像/視頻/繪圖
1、圖像部分 (1)圖像讀取 cv.imread(filepath, model) filepath:圖片路徑 model:cv.IMREAD_COLOR # 讀取3通道BGR圖像,默認參數 cv.IMREAD_GR
原创 viterbi 算法與python實現
Viterbi算法 (部分內容轉自知乎:《如何通俗地講解 viterbi 算法?》) 1、問題描述 如下如所示,如何快速找到從 S 到 E 的最短路徑? 一:遍歷窮舉法,可行,但速度太慢; 二:viterbi算法! 注:vit
原创 準確率、召回率和mAP、AP50/75
1、準確率和召回率 真實值與預測值之間的關係如下左圖所示,右圖是二者之間的一個直觀表示,同時也能清晰的看出準確率和召回率的具體含義。準確率 PPP 給出了“預測爲真值的樣本中確實有多少比例爲真值”,召回率 RRR 則給出了“本來就
原创 二、OpenCV-python 之 圖像像素操作
1、像素值操作 OpenCV讀取圖像後,將其作爲numpy存儲,所以大部分的圖像計算都是numpy的工作 px = img[100,100] # 獲取像素點(100,100)的三通道顏色值 blue = img[100,10
原创 Video Understanding(3)——Spatio-Temporal Action Localization時空動作定位
2019 CVPR 《STEP: Spatio-Temporal Progressive Learning for Video Action Detection》,[pytorch] 開源代碼簡單易用,同時有AVA預訓練模型;
原创 評價度量指標之BLEU,METEOR,ROUGE,CIDEr
在 VTT (Video to Text) 任務中,需要衡量模型輸出的視頻描述語句的準確性,因爲衡量的對象是一個個的自然語言文本,所以通常會選擇自然語言處理領域的相關評價指標。這些指標原先都是用來度量機器翻譯結果質量的,並且被證明