[[carries_dependency]]的含义和实现方法

问题描述

我在这篇SO帖子中读到有关[[carries_dependency]]的信息。

但是我不明白的是接受答案中的以下句子：

”特别是，如果传入用memory_order_consume读取的值到一个函数，然后没有[[carries_dependency]]，然后是编译器可能必须发出内存防护指令以确保保留适当的内存排序语义。如果参数是用[[carries_dependency]]注释，然后编译器可以假定函数主体将正确地携带依赖关系，并且这栅栏可能不再必要。

类似地，如果函数返回一个加载有 memory_order_consume，或从这样的值派生，则没有 [[carries_dependency]]可能需要编译器插入篱笆指令以确保适当的内存顺序语义得到维护。使用[[carries_dependency]]批注，此围墙可能不再是必需的，因为呼叫者现在负责维护依赖关系树。”

让我们逐步进行：

“如果将使用memory_order_consume读取的值传递给函数，然后如果没有[[carries_dependency]]，则编译器可能不得不发出内存围栏指令以确保适当的内存排序语义得以保留。”

因此，对于释放消费型内存模型中的原子变量，当将原子变量作为参数传递给函数时，编译器将引入fence硬件指令，以便始终具有提供给原子变量的最新和更新值。功能。

下一步-

“如果参数用[[carries_dependency]]注释，则编译器可以假定函数主体将正确携带依赖性，并且可能不再需要此防护栅。”

这让我感到困惑-原子变量值已经被消耗了，那么函数的依赖关系又是什么呢？

类似地-

”，如果函数返回装载有memory_order_consume的值，或者从这样的值派生，然后没有[[carries_dependency]] 可能要求编译器插入fence指令以确保维护适当的内存排序语义。随着 [[carries_dependency]]批注，此围栏可能不再是必要，因为呼叫者现在负责维护依赖树。”

从该示例中，尚不清楚它要说明的关于携带依赖项的要点是什么？

解决方法

仅供参考，memory_order_consume（和[[carries_dependency]]）实际上已被弃用，因为对于编译器而言，很难像C ++ 11那样有效，正确地实现规则。（和/或因为[[carries_dependency]]和/或kill_dependency最终将在整个地方都需要。）请参见P0371R1: Temporarily discourage memory_order_consume。

当前的编译器只是将mo_consume视为mo_acquire（因此，在需要一个的ISA上，在消耗负载之后设置一个障碍）。如果要实现无障碍数据依赖排序，则必须使用mo_relaxed欺骗编译器，并仔细编码，以免使编译器可能在没有实际依赖的情况下创建asm。（例如Linux RCU）。有关更多详细信息和链接以及mo_consume旨在公开的asm功能，请参见C++11: the difference between memory_order_relaxed and memory_order_consume。

也Memory order consume usage in C11。
了解依赖顺序的概念（在asm中）对于理解此C ++功能的设计基本上至关重要。

当将[an]原子变量作为参数传递给函数时，编译器将引入围栏硬件指令...

首先，您不会将“原子变量”传递给函数；那甚至意味着什么？如果您要传递指向原子对象的指针或引用，则该函数将对其进行自身的加载，并且该函数的源代码将使用或不使用memory_order_consume。

相关的事情是使用mo_consume从原子变量传递值 loaded 。像这样：

    int tmp = shared_var.load(std::memory_order_consume);
    func(tmp);

func可以使用该arg作为atomic<int>数组的索引来进行mo_relaxed加载。为了使加载在shared_var.load之后依序进行排序，即使没有内存屏障，func的代码源也必须确保该加载对arg有asm数据依赖关系，即使C ++代码也是如此做类似tmp -= tmp;的事情，编译器通常只会将它们与tmp = 0;一样对待（杀死先前的值）。

但是[[carries_dependency]]将使编译器在实现类似array[idx+tmp]的过程中仍然引用具有数据依赖性的零值。

原子变量值已经被消耗了，那么函数的依赖关系是什么？

“已消耗”是无效的概念。 consume而非acquire的全部要点在于，以后的加载正确排序，因为它们对mo_consume加载结果具有 data 依赖性，从而避免了障碍。如果要在原始加载之后进行排序，则以后的每个加载都需要这样的依赖关系。您无法说一个值“已经消耗”。

如果由于对一个函数缺少carry_dependency而最终插入了障碍来促进消费获取，那么以后的函数就不需要另一个障碍，因为您可以说该值是“已经获取”的。（尽管这不是标准术语。您应该在加载后订购第一个障碍后说代码。）

了解Linux内核是如何处理此问题的，这是有用的，它们具有手动滚动的原子和受支持的有限的一组编译器。在以下位置搜索“依赖项” https://github.com/torvalds/linux/blob/master/Documentation/memory-barriers.txt，并注意if(flag) data.load()之类的“控制依赖项”与data[idx].load之类的数据依赖项之间的区别。

IIRC，即使依赖项像mo_consume这样的条件，即使C ++也不能保证if(x.load(consume)) tmp=y.load();依赖项排序。

请注意，例如，如果只有两个可能的值，则编译器有时会将数据依赖项转换为控件依赖项。这将破坏mo_consume，并且如果值来自mo_consume加载或[[carries_dependency]]函数arg，则将是不允许的优化。这就是为什么很难实现的部分原因。这将需要教授大量有关数据依赖关系排序的优化途径，而不是仅仅期望用户编写不会执行通常会优化掉的事情的代码。（就像tmp -= tmp;）

c++c++11 memory-model stdatomic