L1缓存通常具有拆分设计，但是L2，L3缓存具有统一设计，为什么？

问题描述

我正在阅读this线程中缓存设计与统一设计的优缺点。

根据我的理解，拆分设计的主要优点是：拆分设计使我们能够将指令缓存靠近指令提取单元，并将数据缓存靠近内存主要缺点是：指令和数据缓存的组合空间可能无法有效利用。仿真表明，相同大小的统一缓存具有较高的命中率。

但是，我找不到以下问题的直观答案：“为什么（在大多数现代处理器中至少是这样）L1缓存遵循拆分设计，而L2 / L3缓存遵循统一设计。）” >

解决方法

分裂L1的大多数原因是聚合的读/写端口（以及带宽），并且将它们物理上放置在靠近加载/存储与获取管道一部分的位置。并让L1d处理字节加载/存储（甚至不对齐）。在需要handle that with maximum efficiency的x86 CPU上，L1d只能使用奇偶校验，不能使用ECC。

请参见Why is the size of L1 cache smaller than that of the L2 cache in most of the processors?，有关以下内容：不可能构建1个大型L1缓存，其容量是L1i / d的两倍，容量相同，延迟时间相同，并且带宽总和。

这些因素中的任何一个都不对L2重要（或者在未对齐/字节存储的情况下根本不存在）。可用于代码或数据的总容量在那里最有用，可以根据需求竞争共享。

对于任何工作负载而言，在同一时钟周期内有很多L1i 和 L1d未命中是非常罕见的，因为频繁的代码未命中意味着后端停滞并且没有加载/存储指令执行。（频繁发生的L1i丢失很少，但是在某些正常的工作负载中确实会发生频繁的L1d丢失，例如，循环遍历L1d中不适合的阵列。）无论如何，这意味着在正常情况下，数据可以获得L2d总带宽预算的大部分，统一的L2仍然只需要1个读取端口。

@Hadi与您链接的答案确实涵盖了大多数这些原因，但是我想写一个简化的/总结性的答案并没有什么害处。

cpu-architecture cpu-cache micro-architecture