原创 CASIA-HWDB2.x 數據集DGRL文件解析(python)

CASIA-HWDB 數據集是最常見的手寫漢字識別數據集,它包含脫機、聯機兩部分,分單字、文本行兩種類型: HWDB1.x:脫機單字,1.0~1.2 三個版本,數據格式爲 .gnt OLHWDB1.x:聯機單字,1.0~1.2

原创 目標檢測之RCNN、Yolo、SSD、RetinaNet與Anchor-Free

1、RCNN系列 1.1 從RCNN到Fast RCNN、Faster RCNN (1)RCNN(2014) Object Detection任務主要包含兩個內容:識別物體,確定位置。在識別物體這一塊,傳統的做法是利用特徵點來表徵

原创 Video Understanding(2)——Temporal Action Detection時序動作檢測

上一篇文章《Video Understanding(1)——Action Recognition動作識別》翻譯於一篇綜述,從這篇綜述可以看到,目前對於視頻的處理方式大概可以分成三類方法:(1)雙流法,利用RGB圖像提取空間信息,利

原创 Face++(曠視)人臉檢測SDK開發流程

1. SDK下載 當前最新版SDK地址 其實整個SDK裏面只用到三個核心文件、三個util腳本,當然如果不想自己創建工程,它裏面有一個demo是可以直接跑的。 2. 核心文件導入 SDK包含三個核心文件: MGFaceppSDK

原创 Markdown編輯器typora集成圖牀插件,輕鬆搞定博客圖片丟失問題

1、IDE工具:typora 優勢: 書寫方便,文檔在編輯完成後迅速轉換爲閱讀模式,效果能夠實時呈現,方便修改調整; 各種公式、插圖、表格、代碼等都能輕易實現,佈局方便; UI界面簡潔優美,操作起來得心應手。 2、圖牀插件:p

原创 matplotlib基本繪圖API集錦

一、基本使用流程 import matplotlib.pyplot as plt # 導入模塊 # 畫布設置 plt.figure(figsize=(12,9)) # 設置圖像尺寸大小,參數值乘以100表示分辨率

原创 Video Understanding(1)——Action Recognition動作識別

1.推薦閱讀 [動作識別綜述_1](本文主要翻譯自該綜述) [動作識別綜述_2](GitHub項目) [動作識別開源集錦](GitHub項目) [競賽](ActivityNet) Kinetics UCF101 HMDB-51 Y

原创 三、OpenCV-python 之 圖像處理(Ⅰ)

1、空間轉換 OpenCV的圖像顏色空間很多,常見的有BGR、HSV等。 cv.cvtColor(input_image, flag) # 空間轉換函數,flag參數多達150多種,常用的cv.COLOR_BGR2GRAY、cv

原创 分類任務之LeNet-5、AlexNet、VGG、ResNet、GoogLeNet

1、LeNet-5 手寫體數字識別模型,是一個廣爲人知的商用的卷積神經網絡, 當年美國大多數銀行用它來識別支票上面的手寫數字。 Lenet-5 原始結構如下圖所示,包括:卷積層,降採樣,卷積層,降採樣,卷積層(實現全連接),全連接

原创 一、OpenCV-python 之 圖像/視頻/繪圖

1、圖像部分 (1)圖像讀取 cv.imread(filepath, model) filepath:圖片路徑 model:cv.IMREAD_COLOR # 讀取3通道BGR圖像,默認參數 cv.IMREAD_GR

原创 viterbi 算法與python實現

Viterbi算法 (部分內容轉自知乎:《如何通俗地講解 viterbi 算法?》) 1、問題描述 如下如所示,如何快速找到從 S 到 E 的最短路徑? 一:遍歷窮舉法,可行,但速度太慢; 二:viterbi算法! 注:vit

原创 準確率、召回率和mAP、AP50/75

1、準確率和召回率 真實值與預測值之間的關係如下左圖所示,右圖是二者之間的一個直觀表示,同時也能清晰的看出準確率和召回率的具體含義。準確率 PPP 給出了“預測爲真值的樣本中確實有多少比例爲真值”,召回率 RRR 則給出了“本來就

原创 二、OpenCV-python 之 圖像像素操作

1、像素值操作 OpenCV讀取圖像後,將其作爲numpy存儲,所以大部分的圖像計算都是numpy的工作 px = img[100,100] # 獲取像素點(100,100)的三通道顏色值 blue = img[100,10

原创 Video Understanding(3)——Spatio-Temporal Action Localization時空動作定位

2019 CVPR 《STEP: Spatio-Temporal Progressive Learning for Video Action Detection》,[pytorch] 開源代碼簡單易用,同時有AVA預訓練模型;

原创 評價度量指標之BLEU,METEOR,ROUGE,CIDEr

在 VTT (Video to Text) 任務中,需要衡量模型輸出的視頻描述語句的準確性,因爲衡量的對象是一個個的自然語言文本,所以通常會選擇自然語言處理領域的相關評價指標。這些指標原先都是用來度量機器翻譯結果質量的,並且被證明