为什么在我的系统中“ memory_order_relaxed”被视为“ memory_order_seq

问题描述

我的代码：

std::atomic<int> x(22),y(22);
int temp_x = -1,temp_y = -1;

void task_0(){
      x.store(33,std::memory_order_relaxed);
      temp_y = y.load(std::memory_order_relaxed);
}

void task_1(){
      y.store(33,std::memory_order_relaxed);
      temp_x = x.load(std::memory_order_relaxed);
}

int main(){
      std::thread t1(task_0);
      std::thread t2(task_1);

      t1.join();
      t2.join();

      std::cout<<temp_x<<" : "<<temp_y<<"\n";

return 0;
}

问题在于，当我使用“ memory_order_relaxed”时，在测试了100次输出后，应该是“ 22：22”，但是我的程序给出了：

输出：

  "33 : 33"
  "22 : 33"
  "33 : 22"

但没有给出“ 22:22”输出

我在我的64位2.9 GHz四核Intel Core i7架构中测试了该程序。伙计们，我的程序出了什么问题，我需要了解些什么吗？

解决方法

仅因为该标准指出特定的可能性是可能的，并不意味着导致其发生的原因是由随机数控制的。在实际的计算机上，未指定行为的结果取决于这些实际计算机上操作码，缓存等的执行情况。

因此，尽管理论上有可能取得结果，但这并不意味着一定会发生。在您的特殊情况下，要从这两者中获得22，则编译器（或CPU）基本上必须重新排序这两个函数中的至少一个。如果从这种重新排序中没有任何收获，那么可能就不会发生。

可以重新排序。您的实验只是有点松散。

在x86上允许重新排序（“ 22：22”）。 x86允许对存储-加载进行重新排序，即在一个线程内，可以在先前存储到另一个变量之前完成加载。

请确保在启用优化的情况下进行编译。

检查生成的代码，以确保它是您想要的。编译器IS允许轻松地交换MO，但可能不会。请注意，即使x86商店也需要lock xchg才能成为SC，因此，如果您没有看到它，则不是memory_order_seq_cst。（但是，即使您确实看到了，也可以这样做，因为从理论上讲，允许编译器使用比所需的更为严格的实现来实现内存顺序。）

您的实验设置存在一些令人困惑的问题。

要查看重新排序，x.store和y.store必须在几乎完全相同的时间下降到10纳秒。所以你会需要一种同步这些方法或更改实验以使其增加重新排序的机会数量。
与创建线程相比，启动线程的成本非常高存储/加载。一个线程可能先于另一个线程完成开始。（实际上，您并不总是看到“ 22： 33“）。
要查看重新排序，命令需要在不同的内核上发生。启动2个线程并不能保证它们继续运行不同的核心。它们都可以顺序运行在同一内核上。它取决于操作系统的调度方式。您需要找到一种设置方法线程的CPU亲和力。

另一个可能的因素是您可能看不到如果线程在不同的逻辑内核上运行，则重新排序相同的物理核心。您有一个Intel四核，所以有仅2个物理核心，每个核心2个逻辑核心。英特尔不说在同一逻辑内核之间不可能重新排序物理核心，但是如果您考虑一下，它的可能性就较小发生（机会的窗口较小），因为商店不必经过总线即可被邻居核心看到。所以要控制为此，我将为两者设置核心相似性分别设为0和2。
如果全局变量是热缓存中的，则存储几乎发生即刻。您必须考虑缓存发生了什么一致性协议并相应地设置实验。
您可能与原子变量共享错误。他们可能是在同一缓存行上。是在总线上发送的缓存行，处于独占模式等。因此，请在它们之间添加一些填充确保它们在不同的缓存行中。

c++c++11 multithreading

为什么在我的系统中“ memory_order_relaxed”被视为“ memory_order_seq_cst” [C ++]

问题描述

解决方法