问题描述
大多数现代微处理器都存在乱序执行的情况。我们如何期望程序按程序员编写的顺序完成?
解决方法
当然,您不能仅仅对体系结构寄存器中出现的任何寄存器值按任意顺序运行指令。 一条指令只有在其正确输入准备就绪时才能执行。找到尽可能多的“未来”指令正确的时间是保持执行单元工作量的关键,{ {3}}。
在从前端到后端复制(按程序顺序)指令时,在分配/重命名期间设置了指令之间的依赖关系跟踪。在分配/重命名期间,RAT(寄存器分配表)将架构寄存器映射到物理寄存器,从而允许一次执行使用同一架构寄存器的多个独立的dep链。
也许您正在考虑这个问题。 ISA(例如x86-64或ARMv8)定义了一组有关机器指令执行方式的规则,通常是一种串行模型,其中一条指令在下一条指令开始执行之前就完全完成了执行。 (确实存在具有明显并行性的ISA,例如VLIW或Mill的延迟可见性负载,这些负载在某些固定条指令之后可见,这有助于隐藏顺序CPU上的负载延迟。定义的规则。)
要像这样为ISA运行软件,硬件必须实现书面上保证的所有规则。 乱序执行的基本规则是保留对单个线程 1 的按程序顺序执行指令的错觉。这是成为有效/非越野x86或ARM CPU的必要部分。
(请参阅finding instruction level parallelism (ILP)-任何未重命名的架构状态通常都需要在修改时对管道进行序列化,因此请确保所有需要旧值的指令都已完成。)
这非常类似于C“好像” C的优化规则:只要可观察到的结果仍然相同,您就可以做任何想做的事,但是对于CPU架构师而不是编译器。
如 Observing x86 register dependencies 所述:如果处理器要无序执行指令,则需要牢记这些指令之间的依赖性。(如果您还没有的话,您绝对应该读一读;对于任何更高级的东西,这是理解的很好的基线,并且涵盖了很多基础。高度建议。)
这就是为什么OoO执行人员需要这么多的晶体管用于大型调度程序和重排序缓冲区(ROB)来跟踪重排序以及指令之间的依赖关系。 (在计算机体系结构术语中,Modern Microprocessors A 90-Minute Guide!:写后读取,其中一条指令写入一个寄存器,而后一条指令读取该寄存器。RAW hazards隐藏WAR和WAW危害。)
脚注1 :OoO执行人员不会不尝试维护其他线程遵守的Register renaming的顺序。即使是有序的CPU都可以对内存进行重新排序,因此,软件始终需要使用篱笆指令来照顾线程间的通信,并且/或者根据ISA获取负载/释放存储区或其他内容。
另请参见
- memory accesses
- Observing x86 register dependencies-一切都是投机性的,直到有序退役确认投机是正确的并保持有效的架构状态。
- Out-of-order execution vs. speculative execution-显示了 long 依赖链的OoO执行限制。
- Are loads and stores the only instructions that gets reordered?详细了解无序窗口大小的限制。
- http://blog.stuffedcow.net/2013/05/measuring-rob-capacity/-HSW的无序后端示意图。
- https://www.realworldtech.com/haswell-cpu/3/-包括有关OoO exec如何执行操作的一般背景,以及有关CPU工作方式的内容的链接。
- Deoptimizing a program for the pipeline in Intel Sandybridge-family CPUs-存储缓冲区对于将OoO执行程序与存储的全局可见性脱钩至关重要。
- Can a speculatively executed CPU branch contain opcodes that access RAM?(不是,但是我的回答涵盖了OoO exec如何利用指令级并行性的一些基础知识。当有独立工作要做时,ILP存在,而不是一个长的依赖链。)
- https://softwareengineering.stackexchange.com/questions/349972/how-does-a-single-thread-run-on-multiple-cores/350024#350024
- http://www.lighterra.com/papers/modernmicroprocessors/-指出OoO exec与内存重新排序是分开的,否则与之无关。