问题描述
我是使用Cuda工具包进行GPU编程的新手,我必须写一些代码来提供标题中提到的功能。
void CTrtModelWrapper::forward(void **bindings,unsigned height,unsigned width,short channel,ColorSpaceFmt colorFmt,PixelDataType pixelType) {
uint16_t *devInRawBuffer_ptr = (uint16_t *) bindings[0];
uint16_t *devOutRawBuffer_ptr = (uint16_t *) bindings[1];
const unsigned short bit = 16;
float *devInputBuffer_ptr = nullptr;
float *devOutputBuffer_ptr = nullptr;
unsigned volume = height * width * channel;
common::cudaCheck(cudamalloc((void **) &devInputBuffer_ptr,volume * getElementSize(nvinfer1::DataType::kFLOAT)));
common::cudaCheck(cudamalloc((void **) &devOutputBuffer_ptr,volume * getElementSize(nvinfer1::DataType::kFLOAT)));
unsigned short npos = 0;
switch (pixelType) {
case PixelDataType::PDT_INT8: // high 8bit
npos = bit - 8;
break;
case PixelDataType::PDT_INT10: // high 10bit
npos = bit - 10;
break;
default:
break;
}
switch (colorFmt) {
case CFMT_RGB: {
for (unsigned i = 0; i < volume; ++i) {
devInputBuffer_ptr[i] = float((devInRawBuffer_ptr[i]) >> npos); // SEGMENTATION Fault at this line
}
}
break;
default:
break;
}
void *rtBindings[2] = {devInputBuffer_ptr,devOutputBuffer_ptr};
// forward
this->_forward(rtBindings);
// convert output
unsigned short ef_bit = bit - npos;
switch (colorFmt) {
case CFMT_RGB: {
for (unsigned i = 0; i < volume; ++i) {
devOutRawBuffer_ptr[i] = clip< uint16_t >((uint16_t) devOutputBuffer_ptr[i],(uint16_t) pow(2,ef_bit)) << npos;
}
}
break;
default:
break;
}
}
-
bindings
是指向数组的指针,数组中的第一个元素是设备指针,该指针指向在gpu上使用cudamalloc
分配的缓冲区,缓冲区中的每个元素都是16位整数第二个相同,用于存储输出数据。 -
height
,width
,channel
,colorFmt(RGB here)
,pixelType(PDT_INT8,aka 8bit)
分别对应于图像高度,宽度,通道号,色彩空间,存储一个像素的位值。
_forward
函数需要一个指向数组的指针,该指针与bindings
相似,只是缓冲区中的每个元素应为32位浮点数。
所以我使用循环进行了一些转换
for (unsigned i = 0; i < volume; ++i) {
devInputBuffer_ptr[i] = float((devInRawBuffer_ptr[i]) >> npos); // SEGMENTATION Fault at this line
}
>>
操作是因为实际的8位数据存储在高8位中。
SEGMENTATION FAULT发生在代码devInputBuffer_ptr[i] = float((devInRawBuffer_ptr[i]) >> npos);
的这一行,并且i
等于0。
我尝试将此代码分成几行:
uint16_t value = devInRawBuffer_ptr[i];
float transferd = float(value >> npos);
devInputBuffer_ptr[i] = transferd;
和SEGMENTATION FAULT发生在此行uint16_t value = devInRawBuffer_ptr[i];
我想知道这是将值分配给已分配的gpu内存缓冲区的有效方法吗?
PS:bindings
中给定的缓冲区是完全可以的。它们来自调用cudamemcpy
函数之前使用forward
的主机内存,但是我仍然将代码粘贴在下面
nvinfer1::DataType type = nvinfer1::DataType::kHALF;
HostBuffer hostInputBuffer(volume,type);
DeviceBuffer deviceInputBuffer(volume,type);
HostBuffer hostOutputBuffer(volume,type);
DeviceBuffer deviceOutputBuffer(volume,type);
// HxWxC --> WxHxC
auto *hostInputDataBuffer = static_cast<unsigned short *>(hostInputBuffer.data());
for (unsigned w = 0; w < W; ++w) {
for (unsigned h = 0; h < H; ++h) {
for (unsigned c = 0; c < C; ++c) {
hostInputDataBuffer[w * H * C + h * C + c] = (unsigned short )(*(ppm.buffer.get() + h * W * C + w * C + c));
}
}
}
auto ret = cudamemcpy(deviceInputBuffer.data(),hostInputBuffer.data(),volume * getElementSize(type),cudamemcpyHostToDevice);
if (ret != 0) {
std::cout << "CUDA failure: " << ret << std::endl;
return EXIT_FAILURE;
}
void *bindings[2] = {deviceInputBuffer.data(),deviceOutputBuffer.data()};
model->forward(bindings,H,W,C,sbsisr::ColorSpaceFmt::CFMT_RGB,sbsisr::PixelDataType::PDT_INT8);
解决方法
在CUDA中,通常不建议在主机代码中取消引用设备指针。例如,当您使用<script><html>"'&$ etc
时正在创建“设备指针”:
cudaMalloc
从您发布的代码中,不可能推断出common::cudaCheck(cudaMalloc((void **) &devInputBuffer_ptr,volume * getElementSize(nvinfer1::DataType::kFLOAT)));
的原因,但是我认为它也是设备指针。
在这种情况下,要执行此操作:
devInRawBuffer_ptr
您将启动CUDA内核,如下所示:
for (unsigned i = 0; i < volume; ++i) {
devInputBuffer_ptr[i] = float((devInRawBuffer_ptr[i]) >> npos);
}
(在浏览器中编码,未经测试)
如果您想了解更多有关此处发生的情况,则不妨学习CUDA。例如,您可以通过研究CUDA示例代码// put this function definition at file scope
__global__ void shift_kernel(float *dst,uint16_t *src,size_t sz,unsigned short npos){
for (size_t idx = blockIdx.x*blockDim.x+threadIdx.x,idx < sz; idx += gridDim.x*blockDim.x) dst[idx] = (float)((src[idx]) >> npos);
}
// call it like this in your code:
kernel<<<160,1024>>>(devInputBuffer_ptr,devInRawBuffer_ptr,volume,npos);
获得大多数基本概念here。 here讨论了网格跨越循环。