關於-CUDA統一虛擬編址-

總的來說，就是

cudaHostAlloc((void **)&h_A,nBytes,cudaHostAllocMapped);

獲取的h_A也是可以當作設備指針用的，不再需要

cudaHostGetDevicePointer((void **)&d_A, (void *)h_A, 0);

來獲取設備指針了，測試的代碼如下：

#include <cuda_runtime.h>
#include <stdio.h>

__global__ void sumArraysZeroCopy(float *A, float *B, float *C, const int N)
{
    int i = blockIdx.x * blockDim.x + threadIdx.x;

    if (i < N) C[i] = A[i] + B[i] +1000;
}

void initialData(float *ip, int size)
{
    int i;

    for (i = 0; i < size; i++)
    {
        ip[i] = (float)( rand() & 0xFF ) / 10.0f;
    }

    return;
}

void display(float * f,int num){
    for(int i=0;i<num;i++){
        printf("%.4f ",f[i]);
    }printf("\n");
}

int main(){
    int num = 10;
    int nBytes = num * sizeof(float);
    float *h_A,*h_B,*h_C,*d_A,*d_B,*d_C,*gpuBuf;

    gpuBuf = (float *)malloc(sizeof(float)*num);
    cudaHostAlloc((void **)&h_A,nBytes,cudaHostAllocMapped);
    cudaHostAlloc((void **)&h_B,nBytes,cudaHostAllocMapped);
    cudaHostAlloc((void **)&h_C,nBytes,cudaHostAllocMapped);
    
    initialData(h_A,num);
    initialData(h_B,num);
    
    for(int i=0;i<num;i++){
        h_C[i] = h_A[i] + h_B[i];
    }
    
    display(h_C,num);

    // cudaHostGetDevicePointer((void **)&d_A, (void *)h_A, 0);
    // cudaHostGetDevicePointer((void **)&d_B, (void *)h_B, 0);
    // cudaHostGetDevicePointer((void **)&d_C, (void *)h_C, 0);

    sumArraysZeroCopy<<<1,num>>>(h_A,h_B,h_C,num+1);

    cudaMemcpy(gpuBuf,h_C,sizeof(float)*num, cudaMemcpyDeviceToHost);
    // display(gpuBuf,num);
    display(h_C,num);
}

結果如下：

關於-CUDA統一虛擬編址-

前端使用 Konva 實現可視化設計器（13）- 折線 - 最優路徑應用【思路篇】

LEETCODE刷題 69. x 的平方根

Leetcode刷題 70. 爬樓梯

小工具：找出下一層的子節點

小工具-合併兩個有序的數組-

一個挺多源的網址GMP，GNU

Mac下配置sublime實現LaTeX

https://yachay.unat.edu.pe/blog/index.php?comment_area=format_blog&comment_component=blog&comment_co

linux以太網驅動總結