Jack's Lab » ISA

PowerPC 体系结构之存储管理

Jack Tan — Tue, 22 Feb 2011 03:32:44 +0000

取 BOOKE 精要，兼顾 E500 规范。 E500 规范是 BOOKE 的 32-bit 实现，更详细些，大部与 BOOKE 兼容。

BOOKE 对存储管理的规范较抽象，没有非常多的细节（比如 TLB 每项的结构必须如此等等），涉及细节则多以 E500 为例子。

1. 概述

E500 实现有两级 TLB，即：L1 TLB 和 L2 TLB。L1 TLB 可以理解为 L2 TLB 的部分缓存。访问 L1 TLB 的效率要比 L2 的效率高，相应的实现的花费也就高。L1 TLB 由硬件维护，不可编程精确控制。故下面的讨论皆针对 L2 TLB，为方便简称其为 TLB。

E500 没有对虚拟地址空间进行划分，即没有固定使用某段虚拟地址固定映射到某段物理地址 (MIPS，主要用于支持设备资源的固定映射以及方便内核对内存的管理)。而是引入了一个更灵活的设计：将 TLB 分为 TLB0 和 TLB1。

TLB0 即用于页映射的 TLB，可动态被替换，页大小固定为 4 KB。E500v1 实现为 2 路组相联，256 项；E500v2 实现为 4 路组相联，512 项。

TLB1 则设计用于映射大页（比如 16MB, 256MB …），支持可变页大小，E500v1 可支持 9 个页大小（最大 256MB），E500v2 则支持 11 个页大小（最大 4GB）。使用时可将某项设为永驻 TLB1 （通过置 Invalidation Protection 位，简写为 IPROT 位），不会被动态替换，实现为全相联，共 16 项，可将其理解为用于映射 16 个段的可编程固定映射机制。

2. TLB 结构与工作方式

2.1 TLB 结构

E500 之 TLB0 与 TLB1 每项的数据格式相似，皆由页区分域、翻译域、访问控制域和存储属性位组成。

2.1.1 页区分域

页区分域 (Page Identificaion Fields) 即为查找 TLB 时的比对域。包括 EPN (Effective Page Number)，TS (Translation Address Space, 1 bit)，TID (Translation ID)，V (Valid, 1 bit)，SIZE (Page Size, 4 bits)。其中 EPN 即为虚页号。

PowerPC 习惯上将地址转换时需要比对的位 (IS/DS | PID | EPN) 的组合，叫做一个地址空间。
其中 IS/DS 为 Instruction/Data Address Space，各 1 bit，位于 MSR，0 为地址空间 0，1 则为地址空间 1，转换时其于 TLB_Entry 之 TS 相比较，相等才会输出物理页号；

PID 为 Process ID，本意是用于区分不同进程的虚拟地址空间，存放于 PIDR 中，属上下文。转换时，比较 PIDR 与 TLB_Entry 之 TID 位，相等才会输出物理页号。BOOKE 规定需实现一个 PID 寄存器；E500 作了扩展，其实现有 3 个 PIDR (PID0 ~ 2)，则 E500 在转换时会形成 3 个虚拟地址。

将 TLB_Entry 之 TID 置 0，则硬件会忽略 PID0 ~ 2 与 TID 的比较，PowerPC Linux 设计时，就将 TID 置 0。

2.1.2 翻译域

翻译域 (Translation Field) 即为经 TLB 翻译后输出的数据，其实即为物理页号，PowerPC 叫 RPN (Real Page Number)

2.1.3 访问控制域

访问控制域 (Access Control Fields) 又称为 PERMIS，共 6 bits，分别指定该页可否被用户态读、写、可执行 (UR, UW, UX)；管理态（核心态）的读、写、可执行 (SR, SW, SX)

2.1.4 存储属性位

存储属性位 (Storage Attribute Bits) ，其重要的 5 bits 为： W (Write through), I (caching Inhibited), M (Memory coherence), G (Guarded), E (Endianness)，一般简写为 WIMGE；

E500 还实现有可用于系统软件的 X0~1，可用于用户软件的 U0 ~ U3

此外E500 之 TLB1 还有一位无效保护位 IPROT，置位则该项不会被置无效。

2.1.5 完整的 E500 TLB Entry 结构

2.2 TLB 工作方式

3. TLB 控制接口

3.1 相关寄存器

3.1.1 MAS0 ~ 4, MAS6, MAS7

MMU Assist Registers, 用于与 TLB Entry 之间的数据交换

MAS0，32 bits，用于选择交换对象是 TLB0 还是 TLB1 (TLBSEL)，以及是TLB1 的哪个 Entry 或者 TLB0 的哪一路 (ESEL)：

MAS1，32 bits，用于存放 V, IPROT, TID, TS, TSIZE：

MAS2，32 bits，用于存放 EPN | X0 | X1 | W | I | M | G | E：

MAS3，32 bits，用于存放 RPN | U0 – U3 | UX | SX | UW | SW | UR |SR：

MAS4，32 bits，用于加上 TLB Miss 的处理，存放默认的 TLBSEL, TIDSEL, TSIZE, X0, X1, WIMGE，当 I/D TLB Miss 出现时，硬件自动将 MAS4 中的值写到 MAS0 ~ 2 的相应域中：

MAS6，32 bits，用于 tlbsx 查找 TLB 时指定 PID0 (SPID0) 和 AS (SAS)

MAS7，32 bits，E500v2 实现，用于支持 36 bits 物理地址，即其 MAS7[60:63] 用作 RPN 的高四位：

3.1.2 MMUCSR0

MMU Control and Status Register 0，用于控制 TLB 的批量无效。有 2 个有效位：位 61 和位 62，其余保留为 0。

MMUCSR0[61]，置 1 则将 TLB0 的所有项置无效

MMUCSR0[62]，置 1 则将 TLB1 的所有项置无效

3.1.3 MMU 配置状态寄存器

MMUCFG, TLB0CFG, TLB1CFG，皆为只读。

MMUCFG 存放当前实现的 PID Register 的数目，PID Register 中 PID 的有效位（e500 为 8），实现的 TLB 个数（e500 为 2，TLB0 和 TLB1）

TLB0CFG 指示 TLB0 的特性，如：几路组相联（e500v1 为 2，e500v2 为4），最小页大小和最大页大小（TLB0 皆为 4KB），是否支持 IPROT 位（TLB0 不支持），是否支持可变页大小（TLB0 不支持，则 AVAL = 0），有多少 Entry

TLB1CFG 指示 TLB1 的特性，数据域与 TLB0CFG 同。

3.2 相关指令

tlbsx RA, RB — TLB Search Indexed
tlbre — TLB Read Entry
tlbwe — TLB Write Entry
tlbivax RA, RB — TLB Invalidate Virtual Address Indexed
tlbsync — TLB Sync

3.3 实例

3.3.1 查找 TLB

输入： MAS6，指定 PID0 (SPID0) 和 AS (SAS)
执行 tlbsx RA, RB，在 TLB 中查找有效地址 RA + RB

若命中，则将命中项之数据输出到：MAS0 ~ MAS3，MAS1[V] = 1，MAS0[TLBSEL] 指定命中的是 TLB0 还是 TLB1，MAS0[ESEL] 指定命中项是TLB1 的哪个 Entry 或者 TLB0 的哪一路。

若没找到，则 MAS1[V] = 0，MAS2[RPN] 为 0

3.3.3 写 TLB

输入：MAS0 ~ 3 (MAS7 for E500v2)
执行 tlbwe

其据 MAS0[TLBSEL] 和 MAS0[ESEL] 选择将被写的 TLB 入口（若为 TLB0，还需借助 EPN[45:51] 用于索引组，ESEL 用于路选），然后将 MAS0 ~ 3 (MAS7 for E500v2) 中的数据写入 TLB。

3.3.4 读 TLB

输入：MAS0[TLBSEL], MAS0[ESEL], MAS2[EPN]
执行 tlbre
输出：MAS1 ~ MAS3，若为 E500v2 且 HID0[EN_MAS7_UPDATE] 则将 RPN 的高 4 位置入 MAS7

3.3.2 置无效某项

输入：无需借助 MAS 寄存器
执行 tlbivax RA + RB

EA = RA + RB，为虚拟地址
EA[32:51] 用于匹配 TLB 项（组选＋ EPN 匹配），其不进行 PID 和 AS 的比较，则若同一组内有相同的 EPN，皆会将其置无效。
EA[60] 用于选择操作的对象是 TLB0 还是 TLB1，类似 MAS0[TLBSEL]
EA[61] 为 1 则置无效 TLB0 或 TLB1 的所有项

若 HID1[ABE] = 1 则该无效操作亦广播给其它 Core，置无效相应的项。

注意： TLB1 之 IPROT 位为 1 可使匹配的项免于被置无效

4. TLB 相关异常

Instruction TLB Error 异常，由 Instruction TLB Miss 引起，用于从页表填充 TLB
Data TLB Error 异常，由 Data TLB Miss 引起
Instruction Storage 异常，由不允许的访问引起，如用户态读一个 UR 为 0（用户态不可读）的页
Data Storage 异常，亦由不允许的访问引起

5. Reset 后 TLB 的状态

E500 上电后， TLB0 和 TLB1 的所有项都会被硬件自动置无效，后将 TLB1 的第一项自动初始化为：

原因为： E500 在上电后，固定到虚拟地址 0xFFFF FFFC 处取指，但其既无实模式 (x86) 又无固定映射 (MIPS)，所以就要求 TLB 中至少有一项，映射到初始化代码处（位于 Flash 的 bootloader），故E500 规定，上电后 TLB1 的第一项始终映射 0xFFFF F000 到物理地址 0xFFFF F000 处，大小为 4KB。

PowerPC 体系结构之中断异常

Jack Tan — Tue, 22 Feb 2011 03:14:53 +0000

取 BOOKE 之精要。

1. 异常类型

00 Critical Interrupt     来自于外部中断控制器，具有较高的优先级
01 Machine Check    严重的内部状态错误，如 Cache 数据的校验失败
02 Data Storage    数据读写异常，如：用户态读一个非用户态的页 (UR=0)
03 Instruction Storage    读指令异常，如：用户态时取一个用户态不可执行的页 (UX=0)
04 External Interrupt    来自于外部中断控制器
05 Alignment    非对齐访问异常
06 Program    程序异常，如：执行非法指令，用户态执行特权指令
07 Floating-Point unavailable    在无浮点部件的 CPU 上执行浮点指令即会触发此异常
08 System call    系统调用
09 Auxiliary Processor Unavailable    在无协处理器的 CPU 上执行协处理器指令即触发此异常
10 Decrementer    DEC 寄存器归零异常，DEC 是一个内部时钟计数器，Linux 用之实现时钟中断
11 Fixed-interval timer interrupt
12 Watchdog timer interrupt
13 Data TLB error    数据 TLB Miss 异常
14 Instruction TLB error    指令 TLB Miss 异常
15 Debug    调试异常，用于支持调试

16 – 31 Reserved for future use 保留给将来体系结构升级用
32 – 63 Allocated for implementation-dependent use 具体实现相关

其中 0，1，12，15 为 Critical Exception，当其发生时，使用 CSRR0 & CSRR1 保存当前 PC 或 (PC + 4) 和 MSR；其他异常发生时，则使用 SRR0 & SRR1 保存当前 PC 或 (PC + 4) 和 MSR

可以看到 BOOKE 体系结构层面规定的异常即为前 16 个，这其中的有些异常是个笼统的抽象（比如 Data Storage 就需要区分是读还是写导致的），为了更细地描述发生异常的原因，PowerPC 引入了一个 ESR (Exception Syndrome Register)，让硬件在异常发生时，在其中指出更具体的原因。比如若 ESR[40] 被置位，则说明异常是由写操作引起的。

2. 异常入口（向量）

BOOKE 使用可读写的内部寄存器 IVPR 和 IVOR 来指定异常的入口。

其中 IVPR (Interrupt Vector Prefix Register) 为 64 bit，指定所有异常入口基地址的高 48 bit，即 IVPR[48:63] 始终为 0

IVOR (Interrupt Vector Offset Register) 为 32 bit，指定具体异常入口相对异常基地址的偏移，每个异常一个，只使用其低 16 位。则其 IVOR[32:40] 为 0；又因所有入口 16 字节对齐，实际上 IVOR[60:63] 亦始终 0：

IVOR00           Critical Interrupt
IVOR01           Machine Check
IVOR02           Data Storage
IVOR03           Instruction Storage
IVOR04           External Interrupt
IVOR05           Alignment
IVOR06           Program
IVOR07           Floating-Point unavailable
IVOR08           System call
IVOR09           Auxiliary Processor Unavailable
IVOR10           Decrementer
IVOR11           Fixed-interval timer interrupt
IVOR12           Watchdog timer interrupt
IVOR13 Data TLB error
IVOR14           Instruction TLB error
IVOR15           Debug
IVOR16 ~ IVOR31
IVOR32 ~ IVOR63

则 Data TLB Miss 的异常入口即为： IVPR[0:47] || IVOR[48:59] || 0b0000

注意：PowerPC 没有 RESET 异常这个概念，故没有 RESET 的入口，上电后处理器直接到固定地址去取指令(E500 上为 0xFFFF FFFC)。

3. 相关寄存器

3.0 MSR (Machine Status Register)

内含部分异常使能位，清位则屏蔽相应的异常：

MSR[46], CE (Critical Enable) — Critical Input and Watchdog Timer Interrupts Enable
MSR[48], EE (External Enable) — External Input, Decrementer and Fixed-Interval Timer Interrupts Enable
MSR[51], ME (Machine Check Enable) — Machine Check Enable
MSR[54], DE (Debug Enable) — Debug Enable

MSR[49], PR (Proble State) — 置 1 表示处理器处于用户态，置 0 则为核心态

当 Critical Exception 发生时，硬件将 MSR 保存于 CSRR1 后，仅保持 ME 不变，自动将 MSR 之其它位清零（PR = 0，进入核心态）

当一般异常发生时，硬件将 MSR 保存于 SRR1 后，保持 CE，DE，ME 不变，自动将其它位清零

3.1 SRR0 (Save/Restore Register 0)

64 bit，用于异常发生时保存引起异常指令的地址（异常）或其下一条指令的地址（中断）。
保存过程硬件自动做
执行 rfi 从异常返回时，处理器会跳转到 SRR0 保存的地址处继续执行。

3.2 SRR1 (Save/Restore Register 1)

32 bit，用于异常发生时硬件自动保存 MSR (Machine Status Register)
执行 rfi 从异常返回时，处理器会将 SRR1 值恢复入 MSR

3.3 CSRR0 (Critical Save/Restore Register 0)

64 bit，用于 Critical Exception (0, 1, 12, 15)
其它与 SRR0 同，只是该类型异常使用指令 rfci 返回

3.4 CSRR1 (Critical Save/Restore Register 1)

32 bit，用于 Critical Exception (0, 1, 12, 15)
其它与 SRR1 同，只是该类型异常使用指令 rfci 返回

3.5 DEAR (Data Exception Address Register)

64 bit，用于记录访存失败的地址，类似 MIPS 之 BadVAddr 或 x86 之 CR2

3.6 IVPR & IVORi

64 bit & 32 bit，异常入口寄存器

3.7 ESR (Exception Syndrome Register)

4. 完整的例子

以外设中断为例：

a. 外部中断控制器通过中断引脚 (#int) 触发处理器进入 External Input 异常
b. 保存当前 PC + 4 入 SRR0 （异步，无需重新执行之，故下一条指令即可）
c. 保存当前 MSR 入 SRR1，保持 MSR 之 CE, DE, ME，其余清除
d. 跳转到入口 IVPR + IVOR4 处（interrupt handler 之所在）
e. interrupt handler 使用指令 rfi 返回，处理器在执行该指令时自动把 SRR1 恢复入 MSR，SRR0 入 PC

最后给一个 BOOKE 之异常的全家福：

参考文献：

[1] Book E: Enhanced PowerPC Architecture, V1.0, 2002.5

PowerPC 体系结构之指令集 (II)

Jack Tan — Tue, 22 Feb 2011 02:53:13 +0000

3.3 整数指令

这类指令大致分为如下几类：

整数访存指令
整数算术运算指令
整数逻辑运算指令
整数比较指令
整数陷阱指令
整数移位指令
XER 指令

其中以整数循环移位指令最为特别。

3.3.1 整数访存指令

3.3.1.1 Load Byte/Half-word/Word and Zero

该类指令从指定地址处读取 8 位、16 位、32 位数据，置入 RT，RT 高位置 0

lbz/lbzu RT, D(RA)
lbzx/lbzux RT, RA, RB

lhz/lhzu RT, D(RA)
lhzx/lhzux RT, RA, RB

lwz/lwzu RT, D(RA)
lwzx/lwzux RT, RA, RB

RT, RA, RB 皆为 GPR，D 为有符号立即数。则有效地址的计算分别为：RA[32:63] + D，RA[32:63] + RB[32:63]，有效地址高 32 位置 0。

后缀 u 表示 Update，即将有效地址更新到 RA 中
后缀 x 表示 Indexed，即使用 RA + RB 的寻址方式

以上用于 32 位，对 64 位，上述指令皆加后缀 ‘e’。则有效地址的 0 ~ 31 位，不再置 0，其计算方式如下：RA + D，RA + RB。

此外，用于 64 位的还有对双字操作的支持：

lde/ldue/ldxe/lduxe

3.3.1.2 Load Half-word Algebraic

lha/lhau RT, D(RA)
lhax/lhaux RT, RA, RB

与 lhz 不同的是，该指令将所读取的半字的最高位 (RT[48]) 填充到 RT[32:47]，实际上就是形成一个 16 位的补码有符号数。

有效地址计算与上同；后缀 u, x 与上同。

对 64 位情形，上述指令皆加后缀 ‘e’，有效地址计算与上小节同。

3.3.1.3 Load Halfword/Word Byte-Reverse

从指定地址处读取 16 位/32 位数据，将字节反转后置入 RT，RT 高位置 0

lhbrx RT, RA, RB
lwbrx RT, RA, RB

如： lwbrx r3, r2, r1，若 r2 + r1 地址处的数据为 0x55aa66bb，则 r3 的结果为 0xbb66aa55

对 64 位情形，上述指令皆加后缀 ‘e’，有效地址计算与上小节同。

3.3.1.4 Load Multiple Word

lmw RT, D(RA)

该指令将 RA + D 开始处的数据，顺序置入 RT ~ R31 中，共读取 31 – T 个字

该指令无 64 位扩展。

3.3.1.5 Load String Word

lswi RT, RA, NB （后缀 i，表示立即数 Immediate）
lswx RT, RA, RB （后缀 x，表示 Indexed 寻址方式）

加载 n 个字节到 RT 开始的寄存器中；
当 NB == 0 时 n = 32； NB != 0 时 n = NB，NB 取值范围为 0 ~ 31

如 r3 = 0×1000 ：

lswi r4, r3, 16

则将 0×1000 处的 16 字节，依次写入 r4, r5, r6, r7

对于 lswx，要加载的字节数则位于 XER[57:63]

该指令无 64 位扩展。

3.3.1.6 Load Word/Doubleword and Reserve

lwarx RT, RA, RB

该指令与 lwzx 的差别在于，其还将处理器内部的 RESERVE 位置为 1，并将有效地址对应的物理地址放入 RESERVE_ADDR 中。

该指令的 64 位版本为： lwarxe RT, RA, RB，差别还是在于有效地址的 0 ~ 31 不被置 0

此外还有一个 ldarxe RT, RA, RB，与 lwarxe 的差别在于其加载 8 字节的数据。

这三条指令常分别与 stwcx./stwcxe./stdcxe. 联用，用于实现锁操作，类似 MIPS 之 ll/sc 指令。

3.3.1.7 Store

stb/stbu            RS, D(RA)
stbx/stbux          RS, RA, RB
sth/sthu            RS, D(RA)
sthx/sthux          RS, RA, RB
stw/stwu            RS, D(RA)
stwx/stwux          RS, RA, RB

该类指令将 RS 中的 8 位、16 位、32 位数据写入有效地址处。后缀 ‘u’, ‘x’ 之含义与 3.3.1.1 同。

上述 12 条指令加后缀 ‘e’ 则用于 64 位。有效地址计算与与 3.3.1.1 同。

另用于 64 位的还有对双字操作的支持：

stde/stdue/stdxe/stduxe

3.3.1.8 Store Halfword/Word Byte-Reverse

sthbrx RS, RA, RB
stwbrx RS, RA, RB

将 RS 中的 16/32 bit 的数据字节反转后置入有效地址处。该指令用于支持在大端系统上以小端序存储数据，亦或在小端系统上以大端序存储数据。

对 64 位情形，上述指令皆加后缀 ‘e’，有效地址计算与上小节同。

3.3.1.9 Store Multiple Word

smw RS, D(RA)

该指令将 RS ~ R31 中的数据（一个字），写入到 RA + D 处

该指令无 64 位扩展。

3.3.1.10 Store String Word

stswi RS, RA, NB （后缀 i，表示立即数 Immediate）
stswx RS, RA, RB （后缀 x，表示 Indexed 寻址方式）

与 lswi/lswx 的操作相反，其将 RS 开始的寄存器组中的 n 个字节，写入到有效地址处（位于 RA）

当 NB == 0 时 n = 32； NB != 0 时 n = NB，NB 取值范围为 0 ~ 31

如 r3 = 0×1000 ：

stswi r4, r3, 16

则将 r4, r5, r6, r7 中的 16 字节数据依次写入 0×1000 处

对于 stswx，要加载的字节数则位于 XER[57:63]

该指令无 64 位扩展。

3.3.1.11 Store Word/Doubleword Conditional

stwcx. RS, RA, RB

如果 RESERVE 位为 1，且 RA + RB 对应的物理地址与 RESERVE_ADDR 一致，则将 RS[32:63] 的内容写入到 RA + RB 处，将 CR0[eq] 位置为 1 后，再将 RESERVE 位复位为 0。

若条件不满足，则仅将 CR0[eq] 位置为 0

可用该指令与 lwarx 联用，实现 spin_lock：

li   r0, 1
loop:
lwarx   r4, 0, r3
cmpwi   r4, 0          # r4[32:63] 与 0 比较
bne loop
stwcw.   r0, 0, r3
bne   loop
isync

解锁则为：

msync
li r0, 0
stw r0, 0(r3)

下面的指令用于 64 位：

stwcxe. RS, RA, RB
stdcxe. RS, RA, RB

差别在于有效地址的高 32 位不再被置为 0。

3.3.2 整数算术运算指令

加、减、乘、除、取负

3.3.3 整数逻辑运算指令

与、或、非、异或

3.3.4 整数比较指令

cmp       BF, L, RA, RB
cmpi       BF, L, RA, SI          # RA 与有符号立即数 SI 比较
cmpl       BF, L, RA, RB          # RA, RB 逻辑比较。l —> logical
cmpli      BF, L, RA, UI          # RA 与无符号立即数 UI 逻辑比较

BF 取值 0 ~ 7，用于指定使用的 CR 域
L 为 0，则为 32 位比较；为 1，则为 64 位比较

如：

cmpi 0, 0, r3, 5

若 r3 > 5，则 CR0[gt] = 1；若 r3 < 5，则 CR0[lt] = 1

3.3.5 整数陷阱指令

tw TO, RA, RB
twi TO, RA, SI

TO 为立即数，5 位，从左到右标号为 0 ~ 4，依次表示小于、大于、等于、无符号小于、无符号大于。用于指定 Trap 的条件。
SI： Signed Immediate

如：

twi 0×10, r3, 5

则如果 r3 < 5，则陷入异常。

以上用于单字 (32 bit) 比较，双字比较则用：

td TO, RA, RB
tdi TO, RA, SI

3.3.6 整数移位指令

3.3.6.1 Rotate

rlwimi        RA, RS, SH, MB, ME            # Rotate Left Word Immediate then Mask Insert
rlwinm        RA, RS, SH, MB, ME            # Rotate Left Word Immediate then AND with Mask
rlwnm         RA, RS, RB, MB, ME            # Rotate Left Word then AND with Mask

以下是该指令的一些例子：

all r11 is: 0x55aa67bb

r0 = 0×00000000
rlwimi r0, r11, 8, 0, 31
r0 is: 0xaa67bb55

r0 = 0×12345678
rlwimi r0, r11, 8, 0, 14
r0 is: 0xaa665678

r0 = 0×12345678
rlwimi r0, r11, 8, 28, 3
r0 is: 0xa2345675

即：取 RS 循环左移 SH 位后的 WB 到 WE 位，替换 RA 的 WB 到 WE 位。

r0 = 0×00000000
rlwinm r0, r11, 8, 0, 31
r0 is: 0xaa67bb55

r0 = 0×12345678
rlwinm r0, r11, 8, 0, 14
r0 is: 0xaa660000

即：取 RS 循环左移 SH 位后的 WB 到 WE 位，替换归零后的 RA

rldcl
rldcr
rldic
rldicl
rldicr
rldimi

3.3.6.2 Shift

slw
srw
sraw
srawi

slw./srw./sraw./srawi.

sld
srd
srad
sradi

3.3.7 XER 指令

mcrxr BF
mcrxr64 BF

3.4 浮点指令

这类指令包括：

浮点数据加载与存储指令
浮点运算指令
浮点数近似和转化指令
浮点比较指令
浮点状态和控制寄存器指令

有关该指令的详情留待以后以《PowerPC 浮点结构》的形式讨论吧。

3.5 处理器控制指令

这类指令包括用于支持异常中断处理的：

sc            System Call
rfci          Return From Critical Interrupt
rfi         Return From Interrup

用于处理器控制寄存器维护的：

mfspr RT, SPRN Move From SPRN (Special Purpose Register) to RT
mtspr SPRN, RS Move RS To SPRN

mfdcr RT, DCRN Move From DCRN (Device Control Register) to RT
mtdcr DCRN, RS Move RS To DCRN

mfmsr RT Move From MSR to RT
mtmsr RS Move RS To MSR

wrtee RA Write MSR External Enable, MSR[EE] = RA[48]
wrteei E Write MSR External Enable Immediate, MSR[EE] = E

以及用于指令同步的：

isync

其保证在其之前的所有指令皆提交，在其自己被提交前，其之后的指令不会进入流水线

3.6 存储管理相关指令

这类指令包括用于 TLB 管理的：

tlbivax
tlbre
tlbwe
tlbsx
tlbsync

tlbivaxe
tlbsxe

用于 Cache 管理的：

dcba/dcbf/dcbi/dcbst/dcbt/dcbtst/dctz/icbi/icbt
dcbae/dcbfe/dcbie/dcbste/dcbte/dcbtste/dctze/icbie/icbte

用于存储同步的：

msync
mbar

PowerPC 体系结构之指令集 (I)

Jack Tan — Mon, 21 Feb 2011 09:30:25 +0000

1. 概述

Book E 定义的 PowerPC 指令集的指令可分为以下几类：

分支跳转指令
CR 指令整数指令
浮点指令
处理器控制指令
存储管理相关指令

CR 指令主要是对 CR 内部位运算支持的一些指令，如 crand, cror, crxor 等等。

2. 常用指令

先看一个测试程序：

int test_call(int a, int b, int c)
{
	a = b + c;
	return a;
}

int test_if(int s)
{
	int i;
	if(s > 0)
		i = s;
	else if(s < 0)
		i = -s;
	else
		i = s * 8;
	return i;
}

int test_cyc1(int c)
{
	int sum = 0;
	do {
		sum += c;
		c--;
	} while(c > 0);
	return c;
}

int test_cyc2(int c)
{
	int sum = 0;
	for(; c > 0; c--)
		sum += c;
	return c;
}

int main()
{
	int a, b, c, d;
	a = test_if(5);
	b = test_cyc1(10);
	c = test_cyc2(10);
	d = test_call(1, 2, 3);
	return a + b + c + d;
}

引入的目的在于查看判断、循环和过程调用这些基本结构在 PowerPC 里怎么被支持。

-O2 参数编译后，objdump -S -d 反汇编，则：

1000040c :
int test_call(int a, int b, int c)
{
	a = b + c;
	return a;
}
1000040c:    7c 64 2a 14     add     r3,r4,r5
--> 对应 a, b, c 三个参数，同时 r3 又置返回值
10000410:    4e 80 00 20     blr
--> 跳转到 LR 所存放的地址处，即函数返回

10000414 :
int test_if(int s)
{
	int i;
	if(s > 0)
10000414:    7c 60 1b 79     mr.     r0,r3
--> r3 移到 r0，若 r0 小于、大于、等于 0，则置 CR0 的相应位。指令后多一点，则说明该指令会据执行结果，设置 CR 的相应位
10000418:    7c 03 03 78     mr      r3,r0
--> 此条指令多余
1000041c:    4d a1 00 20     bgtlr+
--> 若 CR0[gt] 位为 1，则跳转到 LR 所存放的地址处，即直接函数返回了。此条指令等价于 bclr  13, 1
		i = s;
	else if(s < 0)
10000420:    38 60 00 00     li      r3,0
10000424:    4d 82 00 20     beqlr
--> 若 CR0[eq] 位为 1，则跳转到 LR 所存放的地址处，也直接函数返回了。此条指令等价于 bclr      12, 2
		i = -s;
10000428:    7c 60 00 d0     neg     r3,r0
--> r0 取反，入 r3
	else
		i = s * 8;
	return i;
}
1000042c:    4e 80 00 20     blr
--> 跳转到 LR 所存放的地址处，函数返回

10000430 :
int test_cyc1(int c)
{
10000430:    34 03 ff ff     addic. r0,r3,-1
10000434:    7c 69 03 a6     mtctr   r3
10000438:    41 80 00 10     blt-    10000448 
	int sum = 0;
	do {
		sum += c;
		c--;
1000043c:    38 63 ff ff     addi    r3,r3,-1
	} while(c > 0);
10000440:    42 00 ff fc     bdnz+   1000043c 
	return c;
}
10000444:    4e 80 00 20     blr
10000448:    38 00 00 01     li      r0,1
1000044c:    7c 09 03 a6     mtctr   r0
10000450:    4b ff ff ec     b       1000043c 

10000454 :
int test_cyc2(int c)
{
10000454:    2c 03 00 00     cmpwi   r3,0
10000458:    39 20 00 00     li      r9,0
1000045c:    7d 23 48 1e     .long 0x7d23481e
	int sum = 0;
	for(; c > 0; c--)
		sum += c;
	return c;
}
10000460:    7d 23 4b 78     mr      r3,r9
10000464:    4e 80 00 20     blr

int main()
{
10000468:   94 21 ff e0     stwu    r1,-32(r1)
1000046c:   7c 08 02 a6     mflr    r0
	int a, b, c, d;
	a = test_if(5);
10000470:   38 60 00 05     li      r3,5
10000474:   90 01 00 24     stw     r0,36(r1)
10000478:   93 61 00 0c     stw     r27,12(r1)
1000047c:   93 81 00 10     stw     r28,16(r1)
10000480:   93 a1 00 14     stw     r29,20(r1)
10000484:   4b ff ff 91     bl      10000414 
10000488:   7c 7d 1b 78     mr      r29,r3
	b = test_cyc1(10);
1000048c:   38 60 00 0a     li      r3,10
10000490:   4b ff ff a1     bl      10000430 
10000494:   7c 7b 1b 78     mr      r27,r3
	c = test_cyc2(10);
10000498:   38 60 00 0a     li      r3,10
	d = test_call(1, 2, 3);
1000049c:   7f bd da 14     add     r29,r29,r27
100004a0:   4b ff ff b5     bl      10000454 
100004a4:   38 80 00 02     li      r4,2
100004a8:   7c 7c 1b 78     mr      r28,r3
100004ac:   38 a0 00 03     li      r5,3
100004b0:   38 60 00 01     li      r3,1
100004b4:   4b ff ff 59     bl      1000040c 
	return a + b + c + d;
}
100004b8:   80 01 00 24     lwz     r0,36(r1)
100004bc:   7f 9c 1a 14     add     r28,r28,r3
100004c0:   83 61 00 0c     lwz     r27,12(r1)
100004c4:   7c 7d e2 14     add     r3,r29,r28
100004c8:   83 81 00 10     lwz     r28,16(r1)
100004cc:   83 a1 00 14     lwz     r29,20(r1)
100004d0:   7c 08 03 a6     mtlr    r0
100004d4:   38 21 00 20     addi    r1,r1,32
100004d8:   4e 80 00 20     blr

3. 分类概述

3.1 分支跳转指令

这类指令算是 PowerPC 里比较有特色的，也是稍显复杂的。这类指令与 CR, LR 和 CTR 紧密相联，建构起判断、循环和过程调用这些程序的基本结构。其大致可分为四类：

Branch
Branch Conditional
Branch Conditional to Count Register
Branch Conditional to Link Register

3.1.1 Branch

这类指令与 CR 没有联系，即为非条件跳转，助记符后直接跟立即数地址。指令内为立即数地址预留 26 位，即可跳转 2^26 大小的空间，如：(CIA, Current Instruction Address)

b         0×20            —–> 以当前指令地址为基点，往后跳转 0×20 字节，即 PC = CIA + 0×20
ba       0×20            —–> 直接跳转到地址 0×20 处。后缀为 a，则表示使用 Absolute Address，PC = 0×20。
bl        0×20            —–> 在 b 0×20 的基础上，将 LR 更新为 CIA + 4
bla      0×20            —–> 使用绝对地址，且更新 LR。后缀带 l，则表示更新 LR 为 CIA + 4

以上针对 32 位的情形，对 64 位则使用指令 be, bea, bel, bela 功能与上同。

3.1.2 Branch Conditional

此类为条件跳转指令。皆以 bc 开头，带 3 个操作数，如：

bc    BO, BI, BD
bca    BO, BI, BD
bcl    BO, BI, BD
bcla   BO, BI, BD

后缀 a, l 的含义与 branch 类指令同。BO 指定跳转的条件，5 位；BI 指定关联的 CR 位，也是 5 位；BD 为跳转的立即数地址，16 位。

其中以 BO 的编码最为复杂（BO 从左到右编号为 0 ~ 4）：

BO[0]: 为 1，则直接跳转
BO[1]: 为 1，则条件为真时，跳转。否则条件为假时，跳转
BO[2]: 为 1，则 CTR 不自动减 1
BO[3]: 为 1 时，则 CTR == 0 时跳转；为 0 时，则 CTR != 0 时跳转
BO[4]: 静态预测位，1 表示 unlikely，0 表示 likely

则常见的 BO 值：
20 (0b10100) 则表示无条件跳转
12 (0b01100) 则表示 CR 的某个位为 1 时跳转
4 (0b00100) 则表示 CR 的某个位为 0 时跳转

至于静态预测的策略位，默认被置为 0，则其行为为：

b1. 目标地址小于当前指令地址，预测为跳转
b2. 目标地址大于当前指令地址，预测为不跳转
b3. 对于目标地址在 CTR/LR 中的条件跳转指令，一律预测为不跳转

若该位被置 1，则上述 b1, b2, b3 的静态预测行为分别为：不跳转，跳转，跳转。

可以给分支指令加一个 +/- 的后缀，来简化。加 ‘+’ 的指令，一律预测为跳转。加 ‘-’ 的分支指令，一律预测为不跳转。

则对于 b1，后缀 ‘+’ 会将 y 位置 0，’-’ 则将 y 位置 1。
对于 b2，后缀 ‘+’ 会将 y 位置 1，’-’ 则将 y 位置 0。
对于 b3，后缀 ‘+’ 会将 y 位置 1，’-’ 则将 y 位置 0。

BI 与关联 CR 位的关系为：

32 + BI

即，若 BI 为 2，则对应于 CR[34]，即为 CR0[gt] 位。

以上针对 32 位的情形，对 64 位则使用指令 bce, bcea, bcel, bcela 功能与上同。

3.1.3 Branch Conditional to Count Register

bcctr BO, BI
bcctrl BO, BI

后缀 l 的含义与 branch 类指令同。
BO，BI 的编码与 Branch Conditional 类指令同。
跳转目标地址位于 CTR 中。

以上针对 32 位的情形，对 64 位则使用指令 bcctre, bcctrel 功能与上同。

3.1.4 Branch Conditional to Link Register

bclr BO, BI
bclrl BO, BI

后缀 l 的含义与 branch 类指令同。
BO，BI 的编码与 Branch Conditional 类指令同。
跳转目标地址位于 LR 中。

以上针对 32 位的情形，对 64 位则使用指令 bclre, bclrel 功能与上同。

3.2 CR 指令

这类指令包括用来支持 CR 内部位运算的指令和 CR 与 GPR 之间的数据交换指令。

3.2.1 CR 内位运算指令

这类指令的格式皆为： crxxx BT, BA, BB

BT, BA, BB 是 CR 内的位编号，取值范围为 0 ~ 31，如 crand 0, 8, 12，则将 CR[32+8] (CR2[lt]) 与 CR[32+12] (CR3[lt]) 作与操作后，将结果置入 CR[32+0] (CR0[lt])，即 CR[32] = CR[40] & CR[44]

crand:            CR[32+BA] & CR[32+BB]
crandc:           CR[32+BA] & (~CR[32+BB])
creqv:            ~(CR[32+BA] ^ CR[32+BB])，即位相等，则置 1；不等则置 0
crnand:       ~(CR[32+BA] & CR[32+BB])
crnor:            ~(CR[32+BA] | CR[32+BB])
cror:             CR[32+BA] | CR[32+BB]
crorc:            CR[32+BA] | (~CR[32+BB])，先取反后再或
crxor:            CR[32+BA] ^ CR[32+BB]，位异或

3.2.2 CR 与 GPR 间数据交换指令

3.2.2.1 mcrf BF, BFA — Move Condition Register Fields

将 CR 之 BFA 域复制到 BF 域。如 mcrf 0, 3 则将 CR3 拷入 CR0

3.2.2.2 mtcrf FXM, RS — Move To Condition Register Fields

通用寄存器 RS 之 32 ~ 63 位以 4 位为单位，对应于 CR 的 8 个域，编号为 RS0 ~ RS7；
FXM 为域掩码，8 位，从左到右编号为 0 ~ 7，对应于 RS、CR 的 8 个域。某位为 1，则将对应的 RS 域拷贝到对应的 CR 域中。
若 FXM 为 0×80，则只将 CR0 = RS0
若 FXM 为 0xc8，则将 CR0 = RS0, CR1 = RS1, CR4 = RS4

3.2.2.3 mfcr RT — Move From Condition Register

将 CR 的内容移入通用寄存器 RT 的 32 ~ 63 位。

PowerPC 体系结构之 ULR 和 ABI

Jack Tan — Mon, 21 Feb 2011 09:21:54 +0000

A. 以下取 Book E 之 ULR 精要

ULR (User Level Register) 即用户态程序能用的寄存器，包括只读的和可读写的。

最常用的 ULR 包括以下寄存器：

1. GRP (General Purpose Register) 通用寄存器，即用于定点运算的寄存器，共 32 个

2. CR (Condition Register) 指令状态寄存器，其格式如下所示：

注意：Book E 对寄存器的位编号与通常不同，因其支持 PowerPC 64，故其将 64 位寄存器从最高位 (MSB) 到最低位 (LSB) 编号为 0 ~ 63，32 位寄存器则编号为 32 ~ 63。

CR 以4位为单位分成 8 个域，每个域能描述 4 种状态。

2.1 CR0 用于存放 RC 位为1 的整数指令执行后的状态。CR[32:35] 依次表示小于、大于、等于和溢出。当指令执行的结果小于、大于或等于 0 时则置相应的CR[32:34] 的位；CR[35] 的值则直接复制自XER 的 SO (Summary Overflow)位。

2.2 CR1用于存放 RC 位为 1 的所有浮点指令执行后的浮点异常状态。其内容直接复制于浮点状态与控制寄存器 (FPSCR)，CR[36:39] 依次对应于浮点异常 (FX)、浮点使能异常 (FEX)、浮点非法操作异常 (VX) 和浮点溢出异常 (OX)。

RC 位为 1 的指令，其助记符的最后有一个 ‘.‘ ，如 addic./divw./mullw./neg./and./or./xor./nand./nor.

2.3 对于比较指令（整数和浮点），可以通过操作数 BF 指定比较结果所存储的 CR 域：

cmp 3, 0, r3, r4 (cmp BF, L, RA, RB)

操作数 L = 0，表示此为 32 位比较，即只比较 r3, r4 的 32 ~ 63 位。若 r3 > r4，则将 CR3[gt] (CR[45]) 置位。浮点比较类似，但域内第 4 位含义与整数不同，整数依然表示溢出 (SO)，且其值拷贝自 XER[SO]；而对浮点比较，若该位被置，则表示某一浮点操作数不是数值。

2.4 此外 RC 位为 1 的条件存储指令 (stwcx./stwcxe./stdcxe.)，在存储操作成功时置 CR0[2] (EQ 位) 为 1。

3. LR (Link Register) 链接寄存器，用于存放返回地址
Branch and Link 类指令（如 bl，指令内 LK 位为 1）会将下条指令的地址自动写入 LR。bl 用于调用子过程，则置入 LR 的即为返回地址
Branch Conditional to Link Register 类指令（如 bclr）则使用 LR 作为跳转的目标地址，该类指令通常用于子过程返回

4. CTR (Count Register) 计数寄存器，常用于存放跳转目标地址，与 Branch Conditional to Count Register 类指令配合使用；亦可存放循环变量与条件分支指令 (Branch Conditional) 配合，实现循环

CR，LR 和 CTR 是与分支指令紧密联系的，在实现基本程序结构之判断、循环以及过程调用方面作用巨大。

5. XER (Integer eXception Register) 整数异常寄存器，用于置整数运算的溢出 (Overflow)、进位 (Carry Out) 以及批量加载和存储指令要操作的字节数

6. E500 ULR

下图为 e500 之 ULR 概览：

可以看到 e500 没有浮点寄存器，其没有浮点部件。

7. E600 ULR

下图为 e600 之 ULR 概览：

e600 则含32个浮点寄存器，且含 32 个向量寄存器 (VR0 ~ VR31) 用于支持向量计算。

B. ABI

ABI 即 Application Binary Interface。其主要规定通用寄存器的使用约定，以及过程调用的栈的组织。一般最常用的就是通用寄存器的使用约定。Linux 下常用SYS V ABI。

以下是比较诸多 PowerPC ABI 版本后的一个交集：

GPR1: Stack Pointer
GPR3 ~ GPR4: 参数1 ~ 2，同时复用之，置 2 个返回值
GPR5 ~ GPR10: 参数 3 ~ 8

e500 ABI 继承于 System V ABI PowerPC Processor Supplement

以较为常用的 System V ABI 为准，其他寄存器的约定如下：

GPR0: volatile, may be used by function linkage
GPR2: reserved for system
GPR11 ~ 12: volatile, may be used by function linkage
GPR13: small data area pointer
GPR14 ~ 31: saved

C. Reference

[1] Book E: Enhanced PowerPC Architecture, v1.0, 2002.7
[2] PowerPC e500 Core Family Reference Manual, Rev. 1, 2005.4
[3] e600 PowerPC Core Reference Manual, Rev. 0, 2006.3
[4] SYSTEM V APPLICATION BINARY INTERFACE PowerPC Processor Supplement (SYS V ABI), Rev. A, 1995.9
[5] PowerPC Embedded Application Binary Interface (EABI), v1.0, 1995.1
[6] PowerPC e500 Application Binary Interface User’s Guide, Rev. 1.0, 2003.3