DDCA —— 内存架构和子系统&内存控制器

技术分享 20小时前 0 999+

关注

1. 内存架构和子系统

1.1 如何控制访问？

访问控制：

存储单元的访问是通过 访问晶体管（access transistors） 进行控制的。访问晶体管像开关一样，可以连接或断开存储单元和位线（bitline）的连接。
存取控制由 字线（wordline） 控制。当字线激活时，访问晶体管开启，允许存储单元的数据流入或流出位线。

DRAM（Dynamic random access memory）的结构：

DRAM 中的存储单元通常由一个电容和一个晶体管组成。电容用来存储数据（1或0），而晶体管作为访问开关。
由于电容会泄漏电荷，DRAM 需要周期性刷新数据来保持信息的完整性。

SRAM 的结构：

SRAM 中的存储单元由 交叉耦合反相器（cross-coupled inverters） 组成，通常是两个反相器互相连接，形成一个稳定的双稳态结构。
SRAM 需要 4 个晶体管用于存储，2 个晶体管用于访问。
SRAM 不需要像 DRAM 那样周期性刷新数据，因为它的电路结构使其能够长时间保持数据，直到被改写。

差异：

DRAM 的电路结构相对简单，占用的物理空间小，因此具有更高的存储密度，但需要刷新电路。
SRAM 的电路结构更复杂，占用更多的空间，因此存储密度较低，但其访问速度较快且不需要刷新。

1.2 内存架构

DIMM：背面和正面装有 DRAM 芯片的印刷电路板。

Rank：一组 DRAM 芯片，它们协同工作以响应请求并保持数据总线满载。

64位数据总线需要 8x8 DRAM 芯片或 4x16 DRAM 芯片...

Bank：在一次请求期间忙碌的一个rank的子集。

行缓冲区（Row buffer）：从组中读取的最后一行（如 8 KB），作用类似于缓存。

通道（Channel）：每个通道通过命令总线（cmd bus）、地址总线（addr bus）和数据总线（data bus）与处理器相连，用于发送命令、地址和数据。这些总线允许处理器并行地与多个内存模块进行交互，从而提高系统的并行性。

内存控制器（MemCtrl）：处理器通过内存控制器（MemCtrl）来管理对内存的访问。内存控制器负责内存请求的调度，并通过通道将数据发送到内存的特定区域。

Rank：在存储器模块中，每个通道包含一个或多个rank。rank是由多个bank组成的，它们在处理数据时可以同时访问。

Bank：每个rank包含多个bank，bank是rank的子集，每次访问期间只有一个bank处于繁忙状态。每个bank可以独立进行数据的存储和访问，使得系统能够在不同的bank之间并行处理数据，进一步提高内存的效率和带宽。

这种分层结构允许内存系统在不同的bank和rank之间进行并行访问，提高了内存带宽和数据处理效率。这种设计被广泛应用于DRAM中，以减少延迟并提高数据吞吐量。

1.3 DRAM 阵列访问

这是一个 (16Mb) 的DRAM阵列，即有 (4096times4096) 阵列的bits。

行访问选通 (Row Access Strobe, RAS)：由于该DRAM阵列有4096行，因此有(log_{2}^{4096}=12 bits)行地址，在访问数据时，12bits 行地址位最先到达。

列访问选通（Column Access Strobe，CAS）：由于该DRAM阵列有4096列，因此有(log_{2}^{4096}=12 bits)列地址，在访问数据时，12bits 列地址位比行地址位后到达。

行访问选通到达后，DRAM读取一行数据（即4096bits）至行缓冲区（Row buffer），随后列访问选通到达，经过列解码器（Column decoder）从 Row buffer 读取数据返回 CPU。

1.4 内存 Bank 的组织和运行

读取访问顺序：

解码行地址并驱动字线（word-lines）
选定位并驱动位线（bit-lines） - 整行读取
放大行数据
解码列地址并选择行的子集 - 发送至输出端
位线（bit-lines）预充电 - 用于下一次访问

1.5 DRAM 主存储器

主存储器存储在 DRAM 单元中，其存储密度要高得多
DRAM 单元会随着时间的推移而丢失状态 - 必须定期刷新，因此被称为动态存储器
DRAM 存取时间长，能源开销大

1.6 DRAM vs. SRAM

DRAM:

访问速度较慢（电容器）
密度较高（1T 1C cell）
成本较低
需要刷新（功率、性能、电路）
制造时需要将电容器和逻辑器件放在一起

SRAM:

访问速度较快（无电容器）
密度较低（6T cell）
成本较高
无需刷新
制造时与逻辑工艺兼容（无电容器）

1.7 Rank 的组织结构

DIMM、rank、bank、array -> 在存储组织中形成一个层次结构
由于电气限制，总线上只能连接几个 DIMM
一个 DIMM 可有 1~4 ranks
为提高能效，应使用宽输出 DRAM 芯片 —— 每次请求只激活 (4times16bits) 芯片比激活 (16times 4bits) 芯片更好
为高容量，应使用窄输出 DRAM 芯片 —— 由于通道上的 rank 数有限，使用 (16 times 4bits 2Gb) 芯片比使用 (4 times 16bits 2Gb) 芯片可提高每个 rank 的容量

1.8 Banks 和 Arrays 的组织结构

一个 rank 被分成多个 banks（4~16 个），以提高 rank 内的并行性，通过在不同的bank之间进行操作，可以实现并行访问。
ranks 和 banks 提供内存级并行性，通过将数据分散在不同的ranks和banks中，内存系统能够同时处理多个内存请求，从而提升内存的并行处理能力。
一个 bank 由多个 arrays（subarrays、tiles、mats）组成
为了最大限度地提高密度，bank 中的 arrays 要做得很大：为了在有限空间内存储更多数据，每个 bank 内的 array 被设计得很大。这意味着 array 中的行很宽，因此行缓冲区（row buffer）也很宽。例如，当内存请求为 (64Bytes) 时，实际上可能会读取 $8KBytes $的数据（称为 过量读取（overfetch）），以充分利用宽行缓冲区的特性。
每个array每个周期向输出引脚提供一位数据：为了实现更高的存储密度，每个 array 在每个时钟周期内只提供1位数据到输出引脚。这种设计虽然降低了单次传输的数据量，但提高了系统的总存储密度，适合需要存储大量数据的情况。

这种组织方式通过多个层次（ranks、banks、arrays）的划分，实现了高密度的存储，同时也通过并行访问多个banks和ranks，提升了内存系统的并行性和性能。

1.9 行缓冲区（Row Buffers）

每个 bank 都有一个行缓冲器
行缓冲区在DRAM中充当缓存的作用。
- 行缓冲器命中（Row buffer hit）：约 20 ns 访问时间（只需将数据从行缓冲区移至引脚）
- 空行缓冲区访问（Empty row buffer access）：约 40ns（首先需要读取array，然后将数据从行缓冲区移到引脚）。
- 行缓冲区冲突（Row buffer conflict）：约 60ns（首先需要预充电 bit-lines，然后读取新行，再将数据移到引脚）。
另外，还需在队列中等待（数十ns），并且还要经历地址/命令/数据传输延迟（约10ns）。

1.10 构建更大的存储器

我们需要更大的存储阵列，但是大阵列意味着访问速度慢。

如何在保证存储器容量大的同时不使其变得非常慢？

Idea：将存储器划分为更小的阵列，并将这些阵列与输入/输出总线互连。

大容量存储器通常是分层的阵列结构。
DRAM的分层结构：通道（Channel）→ Rank → 存储体 → 子阵列（Subarrays）→ 矩阵（Mats）

2. DRAM 子系统组织

2.1 通用内存结构

上图展示了一个通用的内存结构，主要包括以下组件：

Memory Controller（内存控制器）：负责管理内存数据的读写操作。图中显示了两个内存控制器，每个控制器通过一个通道（channel）与内存模块相连。
Channel（通道）：内存控制器和内存之间的数据传输通道，允许多个控制器访问不同的内存模块，提高内存的带宽。
DRAM（动态随机存取存储器）：DRAM模块通过多个“rank”组织，每个rank又包含若干个“bank”，进一步提高并行性和效率。
Rank：内存中的一个逻辑组织单元，由多个物理内存芯片组成，便于内存控制器的访问管理。
Bank：内存的更小单位，支持多路并发访问。每个bank内又包含多个行（row）和列（column）。
Row（行）和 Column（列）：bank内存储数据的基本单位，通过行和列的地址确定具体的数据位置。
Cache Line（缓存行）：CPU读取数据的基本单位，一次读取的数据块大小。通过cache line的设计提高数据传输效率。

2.2 通用原则：交替访问（Banking）

交替访问（Interleaving）（banking 存储库）

Problem：一个单一的大型内存阵列访问时间长，且无法实现并行的多次访问。
Goal：降低内存阵列的访问延迟，并实现并行的多次访问。
Idea：将一个大型阵列划分为多个可以独立访问的存储库（bank），这些 bank 可以在同一个周期或连续的周期内进行访问。
- 每个 bank 都比整个内存存储要小。
- 对不同 bank 的访问可以重叠。
- 访问延迟是可控的。

2.3 内存 Banking 示例

内存分为多个存储库（banks）：这些存储库可以独立访问，从而实现并行的多次访问。这种结构将内存划分为多个bank，每个bank可以独立完成数据的读写操作，减少了等待时间。
共享地址和数据总线：多个存储库共享地址总线和数据总线，这样设计可以减少内存芯片的引脚数量，从而降低硬件复杂度和成本。
每周期完成一个bank的访问：通过并行访问不同的bank，在每个周期内可以启动和完成对一个存储库的访问，提升了整体的内存访问效率。
支持N个并发访问：如果所有N个访问请求都指向不同的bank，那么系统可以支持N个并发的内存访问请求。这意味着如果内存访问请求均匀分布到不同的bank上，可以充分利用内存带宽，实现高效的并行处理。

图中显示了16个存储库（Bank 0 至 Bank 15）。
每个bank都有其独立的内存数据寄存器（MDR）和内存地址寄存器（MAR），用于存储正在传输的数据和地址信息。
这些存储库通过数据总线与CPU相连，数据总线负责数据的传输，地址总线负责地址信息的传输。

2.4 DRAM 子系统

图中间的处理器通过两个独立的内存通道与内存模块相连，每个通道内可以插入多条内存条（DIMM，即双列直插内存模块），通道负责将数据传输到内存和处理器之间。

2.4.1 分解 DIMM（模块）

上图中展示了DIMM的正面和背面：

Rank 0：位于DIMM的正面，由8个芯片组成。
Rank 1：位于DIMM的背面，也由8个芯片组成。

2.4.2 分解 Rank

每个 Memory channel 包括：

Addr/Cmd：表示地址和指令信号，用于向不同的Rank发送内存访问请求。
CS（Chip Select）：选择信号，用于选择哪个Rank进行操作。在图中，CS <0:1> 表示控制信号，选择Rank 0 或 Rank 1。
Data <0:63>：数据总线，提供64位数据通道，用于传输数据。

一个内存 Rank 内部是由多个芯片（Chip）构成的：

Rank 0被分解为多个芯片，从Chip 0到Chip 7。每个芯片负责部分数据位：

Chip 0负责数据位0到7（<0:7>）。
Chip 1负责数据位8到15（<8:15>）。
依此类推，直到Chip 7负责数据位56到63（<56:63>）。

64位数据通道：所有芯片通过各自负责的8位数据位共同组成了64位的数据通道（Data <0:63>），从而实现并行数据的传输。这种设计允许Rank内多个芯片同时工作，提高了数据访问效率。

2.4.3 分解 Chip

一个内存 Chip 内部是由多个存储库（Banks）构成的：

Chip 0：图的左侧的 Chip 0，它负责8位的数据通道（<0:7>），表示该芯片只传输数据的0到7位。

内部存储单元（Banks）：在右侧的放大图中，Chip 0进一步被分解为8个独立的存储单元（称为“Banks”）。每个Bank都可以独立地存储和读取数据，允许芯片同时处理多个数据请求，提高数据传输的并行性。

2.4.4 分解 Bank

一个内存 Bank 内部是由多个大小为 1Byte 的 Arrays构成的：

先读取一个行，将该行缓存到 Row-buffer 中
再根据 column 地址从 Row-buffer 中取出大小为 1Byte（即 8bits）的数据

2.4.5 深入挖掘：DRAM Bank 操作

第1次访问（Row，Column 0）：

Step 1： Row address 0到达，word-lines 被激活，bit-lines 被连接到感测放大器。

Step 2：感测放大器感知该行内容，捕捉数据放入 Row Buffer。

Step 3：Column address 0到达，选择列。

Step 4：最后数据被读出。

第2次访问（Row 0，Column 1）：

由于 Row Buffer HIT，数据很快被读取出。

第3次访问（Row 0，Column 85）：

同样由于 Row Buffer HIT，数据很快被读取出。

第4次访问（Row 1，Column 0）：

出现 Row Buffer Conflict（冲突）！

Step 1：将行写回，即预充电，使得下次访问的数据可靠，增加了延迟。

Step 2：Row address 1到达，word-lines 被激活，bit-lines 被连接到感测放大器。

Step 3：感测放大器感知该行内容，捕捉数据放入 Row Buffer。

Step 4：Column address 0到达，选择列。

Step 5：最后数据被读出。

2.5 DRAM Bank 内部有 Sub-Banks

左图 (a) 是逻辑抽象图，展示了一个 DRAM bank 的传统表示法，其中包含行(row)、行解码器(row-decoder)和一个大的行缓冲区(row-buffer)。在逻辑抽象中，bank 似乎是一个整体，有着多达 32K 行的数据。

右图 (b) 是实际的物理实现。一个 DRAM bank 实际上被分割为多个子阵列 (Subarray)，每个子阵列拥有自己的局部行缓冲区 (local row-buffer)，并且每个子阵列由512行组成。这里显示了从第1个子阵列到第64个子阵列的结构。这些子阵列通过全局解码器 (global decoder) 连接到整个 bank 的全局行缓冲区 (global row-buffer)。

逻辑抽象：在逻辑上，bank 被认为是一个单一的整体结构，所有行共享一个行缓冲区。
物理实现：实际上，bank 被划分成多个子阵列以提升访问效率。每个子阵列具有自己的局部行缓冲区，使得在不同子阵列之间可以并行处理数据，以提高并行度和性能。

这种设计通过将 bank 分为多个子阵列来增强访问速度和并行性，从而减少等待时间并提升DRAM性能。

2.6 Example：传输缓存块

传输一个 64B 的高速缓存块需要 8 个 I/O 周期。
在此过程中，8 列按顺序被读取。

Step 1：

Step 2：

Step 3：

Step 4：

3. 内存控制器

3.1 打开/关闭页策略(Open/Closed Page Policies)

如果访问流具有局部性，则行缓冲区会保持打开状态
- 行缓冲命中成本低（打开页策略(open-page policy)）
- 行缓冲未命中是存储库冲突，代价高昂，因为预充电在关键路径上
如果访问流几乎没有局部性，则位线（bit-lines）在访问后立即进行预充电（关闭页策略(close-page policy)）
- 几乎每次访问都是行缓冲未命中
- 预充电通常不在关键路径上
现代内存控制器策略介于这两者之间（通常是专有的）

3.2 读写操作

读取和写入操作使用同一条总线。
在切换读取和写入操作时，必须反转总线方向；这需要时间，并导致总线空闲。
因此，写入操作通常以突发方式进行；写缓冲区会存储待处理的写入，直到达到高水位标记。
写入操作会一直进行，直到达到低水位标记。
高水位标记（High Water Mark）：这是缓冲区中数据达到的一个预定的上限。当缓冲区中的数据量达到这个标记时，系统就会触发某些操作，例如开始写入数据（如在存储器中）或停止进一步的数据写入到缓冲区中，以避免缓冲区溢出。
低水位标记（Low Water Mark）：这是缓冲区中的数据量达到的一个预定的下限。当缓冲区中的数据量减少到这个标记时，系统可以重新开启数据写入或进行其他操作，确保缓冲区不会因为数据不足而影响性能。

3.3 地址映射策略

可将连续的缓存行放置在同一行中，以提高行缓冲区命中率
可将连续的缓存行放置在不同行中，以提高并行性
地址映射策略示例：
- row : rank : bank : channel : column : blkoffset
- row : column : rank : bank : channel : blkoffset

3.4 调度策略

FCFS（先到先服务）：处理队列中第一个可以执行的读或写请求。
- 在FCFS策略中，系统按照请求到达的顺序依次执行。只要一个请求准备好（符合执行条件），就会立即被执行。这个方法简单，但在内存访问中可能无法充分利用行缓冲（row buffer）命中，导致性能不高。
First Ready - FCFS（优先行缓冲命中 - 先到先服务）：优先处理行缓冲命中的请求，如果可能的话。
- 这个策略首先检查是否有请求可以命中行缓冲（即当前行已经在内存的行缓冲区中）。如果有，就优先处理这些命中请求，因为这样可以减少行开销，提高访问速度。如果没有行缓冲命中，则按照先到先服务的方式处理。
Stall Time Fair（等待时间公平）：优先处理行缓冲命中的请求，除非其他线程被忽略了。
这个策略在优先行缓冲命中的基础上增加了公平性。如果多个线程在竞争内存访问，则该策略会在尽量优先行缓冲命中的同时，保证所有线程都能得到公平的访问机会，不让某些线程一直被延迟。这种方法有助于平衡多线程环境下的资源分配。