计算能力7.5中的缓存行为

这些是我的假设：

假设计算能力7.5，这些是我的问题：

第三个假设似乎暗示对于全局缓存的负载，L2-> TEX返回值应始终为四的倍数，但并非总是如此。这是怎么回事？
用const和__restrict__限定符标记指针是否还有一点意义？过去曾经向编译器暗示过，数据是只读的，因此可以缓存在L1 /纹理缓存中，但是现在所有数据都缓存在了那里，包括只读和非只读。
从我的第四个假设出发，我认为只要TEX-> SM Returns大于L2-> TEX Returns，差异就来自缓存命中。这是因为，当发生高速缓存命中时，您会从L1中读取一些扇区，而从L2中却没有读取。这是真的吗？

CC 6.x / 7.x

CC 7.0（HBM）64B升级已启用。如果高速缓存行的低64字节未命中，则低64字节将从DRAM中获取。如果高速缓存行的高64字节未命中，则将提取高64字节。
只能从DRAM中获取CC 6.x / 7.5只能访问的32B扇区。

关于L1缓存策略
- CC 6.0默认情况下启用了负载缓存
- CC 6.x默认情况下禁用了加载缓存-请参阅编程指南
- CC 7.x默认情况下启用了负载缓存-有关缓存控制的详细信息，请参阅PTX

在Nsight Compute中，术语请求在6.x和7.x之间变化。

对于5.x-6.x，每条指令的请求数因操作类型和数据宽度而异。例如，32位负载是每个请求8个线程，64位负载是每个请求4个线程，而128位负载是每个请求2个线程。
对于7.x，请求应等效于指令，除非访问模式具有导致序列化的地址差异。

回答CC 7.5问题

第三个假设似乎暗示对于全局缓存的负载，L2-> TEX返回值应始终为四的倍数，但并非如此总是这样。这是怎么回事？

L1TEX单元只会在高速缓存行中提取丢失的32B扇区。

用const和 restrict 限定词标记指针是否还有一点意义？以前是向编译器提示数据是只读的，因此可以将其缓存在L1 /纹理缓存中，但是现在所有数据都缓存在了那里，只读和非只读。

如果已知数据是只读的，则编译器可以执行其他优化。

从我的第四个假设来看，我认为只要TEX-> SM回报大于L2-> TEX回报，差异就来自缓存命中。那是因为当缓存命中时，您会得到一些扇区从L1读取，但从L2读取。这是真的吗？

从L1TEX到SM的返回黑白是128B /周期。从L2到SM的返回黑白在32B扇区中。

Nsight计算内存工作量分析| L1 / TEX缓存表显示