博客
关于我
强烈建议你试试无所不能的chatGPT,快点击我
关于cuda拷贝的速度测试
阅读量:7062 次
发布时间:2019-06-28

本文共 735 字,大约阅读时间需要 2 分钟。

hot3.png

由于没有使用profiler,仅仅通过简单的传输函数测试,如下测试了10000个点,1000000个点,100000000个点的速度:

均按时钟周期来计时,通过MAX调整数据

int main(){    clock_t start,finish;    int *d_data,*h_data;    h_data = (int *)calloc(MAX, sizeof(int));    memset(h_data,0,MAX*sizeof(int));    cudaMalloc((void **) &d_data,MAX*sizeof(int));    start = clock();    cudaMemcpy(d_data,h_data,MAX*sizeof(int),cudaMemcpyHostToDevice);    cudaMemcpy(h_data,d_data,MAX*sizeof(int),cudaMemcpyDeviceToHost);    finish = clock();    cudaFree(d_data);    free(h_data);    cout<<"time is "<
<

 

测试结果

测试结果 10,000个节点 1,000,000个节点 100,000,000个节点
第一次测试 0 7 822
第二次测试 0 8 715
第三次测试 1 7 696

测试图表如下:

 

 

所以在小批量数组的情况下,完全可以在cpu中完成数据操作,然后device上面做简单的加和或者乘积运算。

转载于:https://my.oschina.net/u/204616/blog/545013

你可能感兴趣的文章
关于photoshop钢笔工具中各点对应到“贝塞尔曲线”中的含义(cocos2d-x与iOS)
查看>>
850 USB 烧录模式
查看>>
I.MX6 PLL5 clock hakcing
查看>>
Aidl
查看>>
顺序表的静态建立
查看>>
「技巧」如何快速安装 Sketch 插件
查看>>
C#中对文件的操作小结
查看>>
事件流
查看>>
苹果中毒员工称症状复发:入住当地医院遭拒
查看>>
[2039]数据结构上机实验之二分查找
查看>>
php foreach 看鸟哥的记录,存档
查看>>
numpy数组及处理:效率对比
查看>>
javascript事件模型
查看>>
线性表
查看>>
Google前工程经理王忻:如何准备软件工程师的面试
查看>>
CFileFind类的使用总结
查看>>
结编程队-关灯小游戏-项目进度
查看>>
理解 Redis(3) - 字符串值
查看>>
理解 Redis(2) - 手把手教你理清 Redis 安装全过程
查看>>
Ubuntu14安装rt-thread开发环境
查看>>