原创 MIC編程(1)——MIC是什麼?

美國SC12大會上,英特爾正式發佈了至強融核Xeon Phi,採用MIC(Intel Many Integerated Core)架構,用於高性能並行計算。MIC基於X86架構,支持多種並行模型,OpenMP、pThread、OpenC

原创 MIC編程(4)——MIC靈活高效的編程方式

MIC是基於X86架構的衆核處理器,CPU多核上的並行編程模型在MIC上都支持,同時MIC卡上運行一個uos,因此,MIC與CPU多核之間的編程很靈活,既可以CPU端啓動主函數,也可以MIC端啓動主函數,甚至可以CPU和MIC端同時各自發

原创 MIC編程(5 )——MIC驅動MPSS安裝

1 MIC對硬件的要求 1)        主板 目前,並不是所有的主板都支持MIC環境,有些主板升級BOIS後可以支持MIC環境。MIC需要在主板BOIS中啓用大型基本地址寄存器 (BAR) 支持,MMIO大於4GB的尋址。默認情

原创 基於GPU平臺利用CUDA加速圖像處理算法 實時處理高清圖像

        近年來,以NVIDIATesla爲代表的異構芯片(協處理器)逐漸被引入到通用計算領域中。最初的圖形處理(GraphicProcessing Unit, GPU)就是用來處理大規模的並行計算,並且GPU的並行處理能力在不斷的

原创 Horovod安裝和使用

1.        簡介 Horovod是TensorFlow、Keras和PyTorch的分佈式培訓框架。Horovod的目標是使分佈式深度學習快速且易於使用。 2.        安裝 https://github.com/uber/

原创 TensorFlow GPU版源碼編譯安裝

前提:已安裝CUDA,cuDNN,NCCL,bazel   1. configure [user1@node1 tensorflow-1.12.0]$ ./configure Please specify the location of

原创 數據庫中幾個常用算法的GPU並行化設計

1. Select 2. Sub aggregation 並行對key1進行排序; flag標記:key1的值與上一個值不同時標記爲1,相同標記爲0; 根據flag的值計算前綴和presum; 根據flag、下標、presum計算出每

原创 利用高性能計算加速深度學習算法

1.       深度學習         深度學習是機器學習研究中的一個新的領域,其動機在於建立、模擬人腦進行分析學習的神經網絡,它模仿人腦的機制來解釋數據,例如圖像,聲音和文本。深度學習典型應用爲圖像識別和語音識別。(由於本人不是深度

原创 阿里雲CTO章文嵩:GPU高性能計算是下一個風口

7月22日首屆阿里雲分享日×雲棲大會北京峯會召開,吸引了海內外2000餘名開發者、創業者及生態夥伴參與。 阿里雲CTO章文嵩在分享日指出,隨着DT時代的到臨,高性能數據分析需求開始顯現,雲上將形成包括高性能計算在內的技術生態。

原创 HPC技術趨勢:HPDA、深度學習、軟件定義和機櫃即HPC

HPC技術趨勢:HPDA、深度學習、軟件定義和機櫃即HPC 本文來自:http://m.csdn.net/article/2015-09-28/2825813?from=timeline&isappinstalled=0 百度首席

原创 GPU高性能計算與圖像處理

1                什麼是GPU高性能計算       近年來,以NVIDIA Tesla爲代表的異構芯片(協處理器)逐漸被引入到通用計算領域中。最初的圖形處理(Graphic Processing Unit, GPU)就是

原创 快速開發CUDA程序的方法

根據幾年的CUDA開發經驗,簡單的介紹下CUDA程序的大概開發步驟,按照先修改CPU串行程序後移植到GPU平臺的原理,把需要在GPU上做的工作儘量先在CPU平臺上修改,降低了程序的開發難度,同時有利用bug的調試。通過實現一種快速、有效地

原创 天河二號橫空出世,配4.8萬塊MIC計算卡

      在德國萊比錫舉行的2013年國際超級計算大會上,第41期全球超級計算機500強排行榜今天正式公佈,中國的天河2號(Tianhe-2)成功登頂。這也是繼2010年11月的天河1A奪魁之後,中國重返超算性能世界第一!(不過天河

原创 NVIDIA CUDA系列視頻教程

NVIDIA CUDA開發者系列培訓之一 CUDA介紹以及基本優化 NVIDIA CUDA開發者系列培訓之二 CUDA 優化 (1) NVIDIA CUDA開發者系列培訓之二 CUDA 優化 (2) NVIDIA CUDA

原创 MIC編程(8)——offload語句內調用的函數聲明方式

利用offload模式在MIC卡上編程時,offload內調用的函數前必須加“__attribute__((target(mic))) ”,如: __attribute__((target(mic)))void VecAdd_mic