原创 在NVIDIA GPU 上開發 openCL

在網上查瞭如何在 NVIDIA GPU上來運行openCL , 結果大部分都是介紹在AMD GPU上開發的。所以在此寫篇簡單例子,介紹在NVIDIA GPU 上開發。 NVIDIA的顯卡上,cuda裝好opencl就自然有了,所以裝cu

原创 GPU視頻編解碼及性能質量測試基礎

一視頻編解碼基礎 1.1識別編碼流程 視頻編解碼流程 1.2 YUV顏色空間 YCbCr通常是YUV的同義詞,Y爲明度(luma),CbCr爲色度(chroma),Cb爲 藍色分量,Cr爲紅色分量。 顏色空間轉換公式: –     

原创 語音特徵提取

原英文博客地址:https://haythamfayek.com/2016/04/21/speech-processing-for-machine-learning.html 目錄    Setup 預加重(Pre-Emphasis) 分

原创 Nvidia GP100

Nvidia Pascal GP100 架構本文是 參考Nvidia 的Pascal Whitepaper 總結了 Pascal 架構的新特性。 一:介紹 Nvidia 最新的加速卡 Tesla P100 使用了 GP100 核心,G

原创 內存帶寬測試-STREAM的使用

一:STREAM的起源          STREAM測試工具是由時爲美國Delaware大學教授 John McCalpin提出和完成的, 現在隨着John McCalpin教授的工作變動, 負責 STREAM 的維護和改進的所有工作人

原创 一、函數模板(Function Template)

本系列是《C++Template》(作者:David Vandevoorde, Nicolai M. Josuttis)的學習總結。 1:函數模板(Function Template) 所謂函數模板是由參數表示的一系列的函數。函數模板可以

原创 二、類模板( Class Templates)

1 類似於函數模板,類模板也是類型的參數化。 例子,在頭文件中類模板聲明和定義: #include <vector> #include <stdexcept> template <typename T> class Stack {

原创 SIMD

一、SIMD SIMD單指令流多數據流(SingleInstruction Multiple Data,SIMD)是一種採用一個控制器來控制多個處理器,同時對一組數據(又稱“數據向量”)中的每一個分別執行相同的操作從而實現空間上的並行性的

原创 三、非類型模板參數(Nontype Template Parameters)

對於函數模板和類模板,模板參數不一定必須是類型,也可是是常規的數值。當以類型(type)作爲模板參數的時候,代碼中未決定的是類型;當以一般的數字(non-type)作爲模板參數的時候,代碼中待定的內容便是某些數值。使用者這種模板必須要顯示

原创 四、模板使用的基礎技術(Tricky Basics)

本章講解高級的基礎概念,包括關鍵字typename的另外一種使用,將成員函數和嵌套類定義爲模板,模板模板參數(template template parameters),0值初始化和在類模板中使用字符串常量的一些細節等等。 1、關鍵字ty

原创 k-近鄰算法

K-近鄰算法 機器學習與實戰是對《機器學習實戰》這本書的學習總結。 一:k-近鄰算法分析 簡單說,k-近鄰算法採用測量不同特徵值之間的舉例方法進行分類。 工作原理:存在一個樣本數據集合,也稱訓練樣本集,並且樣本集中每個數據都存在標籤,即

原创 Radix sort 基數排序

有關《GPU並行程序設計》(英文《CUDA Programming A Developer’s Guide to Parallel Computing with GPUs》) 第六章 中基數排序,其中並行排序的多線程排序,由於沒有具體較

原创 nnpack詳解

NNPACK詳解 一:NNPACK簡介 NNPACK由facebook開發,是一個加速神經網絡計算的加速包,NNPACK可以在多核CPU平臺上提高卷積層計算性能。NNPACK採用的快速卷積算法是基於Fourier transform

原创 caffe代碼詳細註解

Caffe net:init()函數代碼詳細註解   Caffe 中net的初始化函數init()是整個網絡創建的關鍵函數。在此對此函數做詳細的梳理。   一、代碼的總體介紹            該init()函數中主要包括以下幾個函

原创 caffe中batch_norm層代碼詳細註解

caffe中batch_norm層代碼註解 一:BN的解釋: 在訓練深層神經網絡的過程中, 由於輸入層的參數在不停的變化, 因此, 導致了當前層的分佈在不停的變化, 這就導致了在訓練的過程中, 要求 learning rate 要設