从GPU大量转移到RAM后渲染速度慢吗？

问题描述

我试图渲染一个点云（> 1亿个点），我将所有数据传输到GPU，仅使用缓冲区名称进行访问。一切正常，直到实现了一项要求我将所有数据传输回RAM的功能。

这是我将数据传递给GPU的方式：

glBindVertexArray(vao);

// some data
glBindBuffer(GL_ARRAY_BUFFER,vbo);
glBufferData(GL_ARRAY_BUFFER,sizeof(float) * GetSize()  * 3,&vertices[0],GL_STATIC_DRAW); // pos

// some attributes
glEnabLevertexAttribArray(0);
glVertexAttribPointer(0,3,GL_FLOAT,GL_FALSE,3 * sizeof(GLfloat),(GLvoid*)0); // pos

...
// some other code
...

glBindBuffer(GL_ARRAY_BUFFER,0);
glBindVertexArray(0);

gldisabLevertexAttribArray(0);

// Clear the contents in the RAM
vertices.clear();
vertices.shrink_to_fit();

然后，我有时需要一个函数来恢复数据以保存更改，这是我所做的：

// restore data back to RAM
// this code was called for >4000 times

glBindBuffer(GL_ARRAY_BUFFER,c.vbo);
c.vertices.clear();
c.vertices.resize(c.sizeg);
glGetBufferSubData(GL_ARRAY_BUFFER,sizeof(glm::vec3) * c.sizeg,&c.vertices[0].position.x);

之后，每次我需要渲染该点云时，该程序都会挂起。

我删除了所有其他代码以仅对此代码进行测试，而这段数据传输代码正是造成延迟的原因

感觉就像每次我尝试渲染导致其挂起的数据时，GPU内都有大量数据复制。但是，当我将数据从GPU传输回RAM后，原来位于GPU内部的数据保持不变，我认为渲染应该像以前一样平滑，但不是这样。

在OpenGL状态下是否发生了某些变化，从而导致了这种滞后？

解决方法

您对OpenGL做出了承诺。然后，您违背了诺言。所以OpenGL为此惩罚了你。

您告诉OpenGL you were going to use this buffer object的方式：

GL_STATIC_DRAW

这意味着您告诉OpenGL，您将要写入缓冲区（DRAW），而不是从缓冲区读取数据。而且您说过您很少会写（STATIC）。因此，OpenGL实现会尽职尽责地将缓冲区对象的存储空间放置在最适合GPU访问而非CPU访问的位置。

然后您从中阅读。您完成了您承诺不再使用OpenGL的事情。

现在，人们（很多人）一直在打破对OpenGL实现的承诺。如此多的实现基本上停止了相信它们。也就是说，他们没有听您要对缓冲区执行的操作，而是关注您实际执行的操作。

该实现看到您从缓冲区读取了内容。因此，假设您打算定期进行此操作。因此，它现在将缓冲区的存储转移到一个对CPU读取更优化的位置，但是对GPU读取来说较不理想的位置。

现代OpenGL具有buffer object creation API where lying is no longer permitted。您指定可以在缓冲区上使用的操作，而OpenGL实现将通过使所有其他访问失败来限制您执行该操作。

如果您使用缓冲区存储API，那么很有可能尝试使用glGetBufferSubData从缓冲区中读取消息，而不会会导致该API只是将内存改组。防止存储改组是该API的一半。如果您仍能从实现中获得这种减慢的效果，则您可能无法做很多事情来在OpenGL中停止它。

最有效的选择（除了使用可以完全控制内存的Vulkan之外），就是根本不尝试从OpenGL读取它。也就是说，不要将GPU存储视为需要某些数据时就可以读回的东西。如果您需要使用CPU上的数据，请保留在其中。也就是说，也将其副本保存在CPU内存中。

c++glm-math opengl opengl performance