有什么方法可以将vtable从主机复制到设备CUDA和C ++

问题描述

由于某些与“虚拟表”或“虚拟指针”相关的原因,Cuda似乎不允许我“将从虚拟基类派生的类的对象传递给__global__函数”。

我想知道是否可以通过某种方式手动设置“虚拟指针”,以便可以使用多态性?

解决方法

有什么方法可以将vtable从主机复制到设备

您不想将vtable从主机复制到设备。主机上的vtable(即在主机上创建的对象中)在vtable中具有一组主机函数指针。将此类对象复制到设备时,vtable不会被更改或“固定”,因此最终在设备上出现一个对象,该对象的vtable充满了主机指针。

如果您随后尝试调用这些虚拟功能之一(使用设备代码中的设备上的对象),则会发生不良情况。 vtable中列出的数字函数入口点是在设备代码中没有任何意义的地址。

以便我可以使用多态性

我建议在设备代码中使用多态的方法是在设备上创建对象。这使用一组设备函数指针(而不是主机函数指针)设置了vtable,并且诸如this之类的问题证明了它可以工作。一阶近似,如果您有一种方法可以在宿主代码中创建一组多态对象,那么我不知道您为什么不能在设备代码中使用类似方法。问题确实与互操作性有关-在主机和设备之间移动此类对象-the stated limitations in the programming guide所指的是这种情况。

我想知道是否可以通过某种方式手动设置“虚拟指针”

可能有。为了共享知识,我将概述一种方法。但是,我对C ++的了解还不够多,很难说这是否可以接受/合法。我唯一可以说的是在非常有限的测试中,它似乎可以正常工作。 但是我认为这是不合法的,因此我不建议您将这种方法用于实验以外的其他用途。即使我们不确定该方法是否合法,也已经有明确规定CUDA限制(如上所述),您不应尝试在主机和设备之间传递具有虚拟功能的对象。因此,我仅提供它作为观察,这可能对实验或研究很有趣。我不建议将其用于生产代码。

this thread中概述了基本思想。它基于这样的想法,即普通的对象复制似乎并不复制虚拟函数指针表,这对我来说很有意义,但是整个对象确实包含该表。因此,如果我们使用这样的方法:

template<typename T>
__device__ void fixVirtualPointers(T *other) {
        T temp =  T(*other); // object-copy moves the "guts" of the object w/o changing vtable
        memcpy(other,&temp,sizeof(T)); // pointer copy seems to move vtable
}

似乎可以获取给定的对象,创建该类型的新“虚拟”对象,然后通过对对象进行基于指针的复制来“修复” vtable(考虑整个对象的大小)而不是“典型的”对象副本。使用此方法后果自负。 This blog也许也很有趣,尽管我不能保证那里任何陈述的正确性。

除此之外,cuda标签上还有许多其他建议,您不妨查看them

,

我想提供一种不同的方法来修复vtable,它不依赖于在对象之间复制vtable。这个想法是在设备上使用new放置,以使编译器生成适当的vtable。但是,这种方法也违反了编程指南中规定的限制。

#include <cstdio>

struct A{
    __host__ __device__
    virtual void foo(){
        printf("A\n");
    }
};

struct B : public A{

    B(int i = 13) : data(i){}

    __host__ __device__
    virtual void foo() override{
        printf("B %d\n",data);
    }

    int data;
};

template<class T>
__global__
void fixKernel(T* ptr){
    T tmp(*ptr);

    new (ptr) T(tmp);
}

__global__
void useKernel(A* ptr){
    ptr->foo();
}


int main(){

    A a;
    a.foo();

    B b(7); 
    b.foo();

    A* ab = new B();

    ab->foo();

    A* d_a;
    cudaMalloc(&d_a,sizeof(A));
    cudaMemcpy(d_a,&a,sizeof(A),cudaMemcpyHostToDevice);

    B* d_b;
    cudaMalloc(&d_b,sizeof(B));
    cudaMemcpy(d_b,&b,sizeof(B),cudaMemcpyHostToDevice);

    fixKernel<<<1,1>>>(d_a);

    useKernel<<<1,1>>>(d_a);

    fixKernel<<<1,1>>>(d_b);

    useKernel<<<1,1>>>(d_b);

    cudaDeviceSynchronize();

    cudaFree(d_b);
    cudaFree(d_a);
    delete ab;
}

相关问答

错误1:Request method ‘DELETE‘ not supported 错误还原:...
错误1:启动docker镜像时报错:Error response from daemon:...
错误1:private field ‘xxx‘ is never assigned 按Alt...
报错如下,通过源不能下载,最后警告pip需升级版本 Requirem...