L1缓存通常具有拆分设计,但是L2,L3缓存具有统一设计,为什么?

问题描述

我正在阅读this线程中缓存设计与统一设计的优缺点。

根据我的理解,拆分设计的主要优点是:拆分设计使我们能够将指令缓存靠近指令提取单元,并将数据缓存靠近内存主要缺点是:指令和数据缓存的组合空间可能无法有效利用。仿真表明,相同大小的统一缓存具有较高的命中率。

但是,我找不到以下问题的直观答案:“为什么(在大多数现代处理器中至少是这样)L1缓存遵循拆分设计,而L2 / L3缓存遵循统一设计。)” >

解决方法

分裂L1的大多数原因是聚合的读/写端口(以及带宽),并且将它们物理上放置在靠近加载/存储与获取管道一部分的位置。并让L1d处理字节加载/存储(甚至不对齐)。在需要handle that with maximum efficiency的x86 CPU上,L1d只能使用奇偶校验,不能使用ECC。

请参见Why is the size of L1 cache smaller than that of the L2 cache in most of the processors?,有关以下内容:不可能构建1个大型L1缓存,其容量是L1i / d的两倍,容量相同,延迟时间相同,并且带宽总和。

这些因素中的任何一个都不对L2重要(或者在未对齐/字节存储的情况下根本不存在)。可用于代码或数据的总容量在那里最有用,可以根据需求竞争共享。

对于任何工作负载而言,在同一时钟周期内有很多L1i L1d未命中是非常罕见的,因为频繁的代码未命中意味着后端停滞并且没有加载/存储指令执行。 (频繁发生的L1i丢失很少,但是在某些正常的工作负载中确实会发生频繁的L1d丢失,例如,循环遍历L1d中不适合的阵列。)无论如何,这意味着在正常情况下,数据可以获得L2d总带宽预算的大部分,统一的L2仍然只需要1个读取端口。

@Hadi与您链接的答案确实涵盖了大多数这些原因,但是我想写一个简化的/总结性的答案并没有什么害处。

相关问答

错误1:Request method ‘DELETE‘ not supported 错误还原:...
错误1:启动docker镜像时报错:Error response from daemon:...
错误1:private field ‘xxx‘ is never assigned 按Alt...
报错如下,通过源不能下载,最后警告pip需升级版本 Requirem...