四. 指令系统1. 指令格式2. 扩展操作码3. 指令寻址3.1 顺序寻址3.2 跳跃寻址4. 数据寻址4.1 直接寻址4.2 间接寻址方式4.3 寄存器寻址4.4 寄存器间接寻址4.5 隐含寻址4.6 立即寻址4.7 偏移寻址基址寻址变址寻址相对寻址4.8 堆栈寻址5. 高级语言与机器级代码之间的对应5.1 x86汇编语言指令基础5.2 常用的汇编指令5.3 AT&T格式的汇编指令5.4 汇编选择语句5.5 循环语句的汇编实现5.6 函数调用汇编实现栈帧中数据的访问切换栈帧栈帧中包含的内容函数参数与返回值的传递6. CISC和RISC五. 中央处理器1. CPU的功能和基本结构1.1 运算器基本结构1.2 控制器内部基本结构2. 指令执行过程2.1 CPU处理各种指令的周期2.2 四个执行周期执行原理取址周期间址周期中断周期2.3 指令执行方案3. 数据通路3.1 CPU内部单总线方式寄存器之间的数据传送主存与寄存器之间的数据传送单总线方式例题3.2 专用数据通路4. 控制器的设计4.1 硬布线控制器设计设计思路设计方式4.2 微程序控制器的基本原理微程序控制器基本结构微指令设计4.3 微指令的编码方式直接编码方式字段直接编码字段间接编码方式微指令地址形成方式4.4 微程序控制单元的设计4.5 微程序设计分类与两种设计方式对比5. 指令流水线5.1 影响指令流水线的因素结构相关因素数据相关控制相关5.2 指令流水线的分类5.3 流水线的多发技术5.4 五段式指令流水线运算类指令LOAD指令STORE指令条件转移指令无条件转移指令6. 多处理器系统6.1 SISD、SIMD、MIMD的基本概念6.2 硬件多线程概念六. 总线1. 总线的概述2. 评价总线性能的指标3. 总线的操作和定时七. 输入 $/$ 输出系统1. $I/O$ 控制方式1.1 DMA控制方式1.2 通道控制方式1.3 $I/O$ 系统基本组成2. 外部设备3. $I/O$ 接口3.1 接口工作原理3.2 接口与端口3.3 $I/O$ 接口的类型4. $I/O$ 方式4.1 程序查询方式4.2 程序中断方式单中断多重中断程序中断4.3 DMA控制方式

四. 指令系统

即便是对于同一台计算机，所支持的指令类别也是千差万别的。各种各样的指令应该如何设定是这一章重点探讨的内容。

指令的定义(机器指令)：是指示计算机执行某种操作的命令，是计算机运行的最小功能单位。而一台计算机的所有指令的集合构成该机的指令系统，也称为指令集。

注：一台计算机只能执行自己指令系统中的指令，不能执行其他系统的指令。如：x86架构、ARM架构。

1. 指令格式

一条指令就是机器语言的一个语句，它是一组有意义的二进制代码。一条指令格式通常要包括操作码字段和地址码字段两部分：

操作码(OP)：想要CPU干什么。如：停机中断、求反求补、加减乘除。
地址码(A)：指明这个操作对谁进行。如：不需要操作对象(停机指令)、需要操作对象(求反求补)、需要两个操作对象(运算)。

$0$ $1$ $2$ $3$ $4$ 个地址码根据地址码数目不同，可以将指令分为零地址指令、一地址指令、二地址指令等。

零地址指令(OP)
零地址指令只需要指明操作码即可。通常两种情况需要用到零地址指令：
1. 不需要操作数，如空操作、停机、关中断等指令。
2. 堆栈计算机，两个操作数隐含存放在栈顶和次栈顶，计算结果压回栈顶。
  这种情况并不是不需要操作数，而是操作数会固定隐含在特定的位置。
  如：后缀表达式，堆栈型计算机在进行算术表达式运算的时候是基于后缀表达式实现的，在计算过程中操作数是隐含在栈中的而不是在指令中。
$+A_1$ )
需要指明操作码和一个操作对象。通常两种情况会用到一地址指令：
1. $1$ $1$ $A_1$ $OP$ $A_1$ $OP(A1)\rightarrow A_1$
  $3$ $\rightarrow$ $A_1\rightarrow$ $A_1$
2. $A_1$ $OP$ $(ACC)OP(A_1)\rightarrow ACC$
  $2$ $\rightarrow$ $A_1$
$A_1$ $(A_1)$ $A_1$ $A_1$ $(A_1)$ 相当于指针所指位置的内容。
$+A_1$ $+A_2$ (源操作数))
常用于需要两个操作数的算术运算、逻辑运算相关指令。
$A_1$ $A_2$ $OP$ $A_1$ $(A_1)op(A_2)\rightarrow A_1$ 。
$4$ $\rightarrow$ $A_1\rightarrow$ $A_2\rightarrow$ $A_1$ 。
三地址指令
常用于需要两个操作数的算术运算、逻辑运算相关指令。
$A_1$ $A_2$ $OP$ $A_3$ $(A_1)op(A_2)\rightarrow A_3$ 。
$4$ $\rightarrow$ $A_1\rightarrow$ $A_2\rightarrow$ $A_3$ 。
四地址指令
$(A_1)op(A_2)\rightarrow A_3$ $A_4=$ 下一条将要执行指令的地址。
$4$ $\rightarrow$ $A_1\rightarrow$ $A_2\rightarrow$ $A_3$ 。
$PC+1$ $PC$ $A_4$ 所指的地址。

$n$ $=2^n$ ，若指令总长度固定不变，则地址码数量越多，寻址能力越差。

还可以对指令进行其他分类，先来看以下概念：

指令字长：一条指令的总长度(可能会变)
机器字长：与CPU有关，CPU进行一次整数运算所能处理的二进制数据的位数(通常和ALU直接相关)
存储字长：与主存有关，一个存储单元中的二进制代码位数(通常和MDR位数相同)
$=$ $=16bit$ $32bit$ )需要两次访存。

所以可以对指令按照长度进行分类：

有的系统中所有指令的长度都相等，这称作定长指令字结构。
$n$ $2^n$ 这么多条指令。这种控制系统的译码电路设计简单，但灵活性较低。
而有的系统中各种指令的长度不等，这称作变长指令字结构。
控制器译码电路设计复杂，但灵活性高。

按照操作类型分类：

数据传送
LOAD作用：把存储器中的数据放到寄存器中
STORE作用：把寄存器中的数据放到存储器中
算术逻辑操作
$1$ $1$ 、求补、浮点运算、十进制运算
逻辑：与、或、非、异或、位操作、位测试、位清除、位求反
移位操作
算术移位、逻辑移位、循环移位(带进位和不带进位)
转移操作
无条件转义(JMP)
$0$ )、JO(结果溢出)、JC(结果有进位)
调用和返回：CALL和RETURN
陷阱(Trap)与陷阱指令
输入输出操作
CPU寄存器和IO端口之间的数据传送(端口即IO接口中的寄存器)

2. 扩展操作码

$+$ $=$ 扩展操作码指令格式。采用这种操作码意味着对于不同地址数的指令使用不同长度的操作码。

$16$ $4$ $4$ $OP$ $12$ $4$ $A_1,A_2,A_3$ 。

$4$ $2^4=16$ $1111$ $15$ 条。

$16$ $4$ $1$ $5\sim8$ $1$ ，就可以确定这是一条二地址指令。

$4$ $1$ $5\sim8$ $1$ ，就可以确定这是一条一地址指令。

$12$ $1$ ，就可以确定这是一条零地址指令。

在设计扩展操作码指令格式时，必须注意以下两点：

不允许短码是长码的前缀，即短操作码不能与长操作码的前面部分的代码相同。
各指令的操作码一定不能重复。

$8$ $4$ $1$ $1$ 。

$16$ 位，试设计一套指令系统满足：

要求	格式	$1$	$2/$ 地址位	$3/$ 地址位	$4/$ 地址位
$15$ 条三地址指令		$0000\sim1110$	$A_1$	$A_2$	$A_3$
$12$ 条二地址指令	$1111\cdots$	$1111$	$0000\sim1011$	$A_1$	$A_2$
$62$ 条一地址指令	$1111\quad11\cdots$	$1111$	$1100\sim1111$	$0000\sim1101$	$A_1$
$32$ 条零地址指令	$1111\quad1111\quad111\cdots$	$1111$	$1111$	$1110\sim1111$	$0000\sim1111$

$15$ $1110$ 即可。
$12$ $4$ $0000\sim1011$ $12$ 个不同二进制数即指令。
$62$ $1$ $4$ $6$ $000000\sim111101$ $62$ 不同二进制位，即指令。
$32$ $11$ $1$ $5$ $00000\sim11111$ $32$ 中状态，即指令。

$11$ $1$ ，就表示这是一条零地址指令。

$n$ $m$ $m\times2^n$ $4$ $2^4=16$ $1\times2^4=16$ $12$ $4\times2^4=64$ $62$ $2\times2^4=32$ 种。

3. 指令寻址

指令寻址：下一条欲执行指令的指令地址。这个地址始终由程序计数器PC给出。并且有顺序寻址和跳跃寻址两种方式。

3.1 顺序寻址

CPU可以通过顺序寻址和跳跃寻址方式，确定下一条指令的存放地址。

$PC$ 可以给出下一条欲被执行的指令地址。

$=$ $16Bit=2B$ $PC$ $0$ $0$ $PC+1$ 。继续执行后面，依次按顺序执行。

$PC+2$ 。

当然有的系统也会采用变长的指令字结构：

$0$ $4$ $+n$ $PC+4$ $4$ 指令地址。

$PC+n$ $n$ $/$ $/$ 字节编址等的影响。

3.2 跳跃寻址

$=$ $16Bit=2B$ 。且主存按字编址。

$0$ $PC+1$ $PC$ $3$ $PC+1$ $JMP$ $PC$ $7$ $7$ 指令地址。

这种通过转移类指令，改变PC的值，即改变程序执行流的方式称为跳跃寻址。

4. 数据寻址

数据寻址：确认本条指令码的地址码指明的真实地址。

$+$ $4$ 位二进制标识即可。

$4$ $+$ $+$ 形式地址构成。

根据中间寻址特性来确认这个形式地址应该用十种方法哪一种来解析它，得到真正的真实地址，这个真实地址叫有效地址(EA)。

上面是对于一地址指令，二地址指令如下：

$=$ $=$ $3$ 。

4.1 直接寻址

$A$ $EA$ $EA=A$ 。

$A$ 直接找到对应主存位置中的数据。

$1$ $1$ $2$ 次。

直接寻址优点：简单，指令执行阶段仅访问一次主存，不需专门计算操作数的地址。

$A$ 的位数决定了该指令操作数的寻址范围。当操作数的地址发生改变时，不易修改。

4.2 间接寻址方式

$EA=(A)$ 。

$A$ $A$ $A$ $EA$ $A$ $EA$ 。

$1$ $2$ $3$ 次。

同时还有两次间接寻址：

$A$ $A_1$ $A_1$ $1$ $EA$ $EA$ $EA$ $0$ 表示这个地址指向的位置就是真是数据的位置。

$EA$ $A$ $EA$ 决定)。并且便于编制程序(用间接寻址可以方便地完成子程序返回)。

缺点：指令在执行阶段要多次访存(一次间址需两次访存，多次寻址需根据存储字的最高位确定几次访存)，导致寻址效率变低。

4.3 寄存器寻址

$EA=R_i$ $R_i$ 所指的寄存器内。

$R_i$ 可以找到寄存器编号。

$1$ $0$ $1$ 次。

$/$ 矩阵运算。

寄存器寻址缺点：寄存器价格昂贵，计算机中寄存器个数有限。

4.4 寄存器间接寻址

$R$ $EA=(R_i)$ 。

$EA$ ，其指向主存中的某一位置。

$1$ $1$ $2$ 次。

寄存器间接寻址特点：与一般间接寻址相比速度更快，但指令的执行阶段需要访问主存(因为操作数在主存中)。

4.5 隐含寻址

隐含寻址：不是明显地给出操作数的地址，而是在指令中隐含着操作数的地址。

有的地址显示给出的地址只是指明，其中一个操作数的位置，而另一个操作数会默认在ACC累加寄存器中，但是这个操作数并没有在指令中显示的给出，所以这是隐含寻址。

优点：有利于缩短指令字长。

缺点：需增加存储操作数或隐含地址的硬件。

4.6 立即寻址

$A$ $\#$ 表示立即寻址特征。

$1$ $0$ $1$ 次。

立即寻址优点：指令执行阶段不访问主存，指令执行时间最短。

$A$ $A$ $n$ $-2^{n-1}\sim2^{n-1}-1$ 。

六种寻址方式总结：

4.7 偏移寻址

以某个地址作为起点，形式地址视为偏移量。偏移寻址有三种：相对寻址、基址寻址和变址寻址。

$JMP$ $7$ $JMP$ $100$ $7$ $107$ $JMP$ $103$ $3$ $107$ 。

这三种偏移方式区别在于偏移的起点不一样。

基址寻址：以程序的起始存放地址作为"起点"。
变址寻址：程序员自己决定从哪里作为"起点"。
相对寻址：以程序计数器PC所指地址作为"起点"。

基址寻址

$A$ $EA=(BR)+A$ 。

有的计算机会带有基址寄存器：

$A$ $A$ $EA$ $A$ $BR$ $ALU$ $EA$

注：可对比操作系统OS课中的"重定位寄存器"就是"基址寄存器"。

而有的计算机内部不会有专门的基地址寄存器，而是使用某个通用寄存器。

$R_0$ $R_0$ $A$ $ALU$ $EA$ 。

$R_0$ $8$ $R_0$ $3$ $2^3=8$ 能表示所有情况。

优点：可扩大寻址范围(基址寄存器的位数大于形式地址A的位数)；用户不必考虑自己的程序存于主存的哪一空间区域，故有利于多道程序设计，以及可用于编制浮动程序便于程序"浮动"，可以从内存当中任何一个地址作为程序起始地址，方便实现多道程序并发运行。

注：基址寄存器是面向操作系统的，其内容由操作系统或管理程序确定。在程序执行过程中，基址寄存器的内容不变(作为基地址)，形式地址可变(作为偏移量)。当采用通用寄存器作为基址寄存器时，可由用户使用汇编语言决定哪个寄存器作为基址寄存器，但其内容仍由操作系统确定。

变址寻址

$EA$ $A$ $IX$ $EA= (IX)+A$ $IX$ 可为变址寄存器(专用)，也可用通用寄存器作为变址寄存器

$IX$ ：

$A$ $IX$ $A$ $EA$ $A$ $IX$ $ALU$ $EA$

$IX$ $A$ 不变作为基地址，和基址寻址相反。

变址寻址原理：先给出一段程序


xxxxxxxxxx
3
1
for(int i=0; i<10; i++){
2
    sum+=a[i];
3
}

该程序存储结构如下：

$\#$ $0$ 放入ACC中
$0$ $IX$ 中。
$EA=(IX)+A$ $A=7$ $(ACC)+(7+IX)\rightarrow ACC$ $IX=0$ $A=7$ $7$ $a[0]$ $0$ $a[0]+ACC$ 运算结果放入ACC中即可。对应代码sum+=a[i]。
$IX+1=1$ $IX$ 中。对应代码i++。
$10-(IX)$ 。
$10-(IX)>0$ $2$ 主存地址，再次循环。对于代码i<10
$A=7,ACC=1$ $7+(ACC)=8$ $ACC$ 中的值相加。
$10-(IX)<0$ $IX>10$ $ACC$ $sum$ 变量中。

$A$ $IX$ i $IX$ 的内容，便可很容易形成数组中任一数据的地址，特别适合编制循环程序。

$A$ $IX$ 的内容，便可很容易形成数组中任一数据的地址，特别适合编制循环程序。

复合寻址：

$+$ 变址复合方式寻址。

$EA=(IX)+((BR)+A)$ 。

注：实际应用中往往需要多种寻址方式复合使用(可理解为复合函数)

相对寻址

$PC$ $A$ $EA=(PC)+A$ $A$ $PC$ 所指地址的位移量，可正可负，补码表示。

$1000$ $PC+1$ $2B$ $PC+2$ $PC$ $1002$ $EA$ $PC$ $A$ $A$ 值是负，则从当前PC所指行往前偏移，如果是正，则往后偏移。

相对寻址原理：

$M+3$ $2$ $M+3$ $PC+1$ $M+4$ -4(补码表示) $PC=M+4-4=M$ $M$ 主存行位置。

$a[0]$ $7$ $M$ $a[0]$ 所在主存位置对应，显然每次都要修改很麻烦。所以现实中都是采用分段方式解决：即程序段(只存放指令代码)和数据段(只存放数据)分开存放。

$PC$ 值的变化而变化，并且与指令地址之间总是相差一个固定值，因此便于程序浮动(一段代码在程序内部的浮动)。相对寻址广泛应用于转移指令。

注意：基址寻址中的浮动指的是整段程序在内存中的浮动。而相对寻址的浮动指的是一段代码在程序内部的浮动。

三种寻址方式总结：

注意：取出当前指令后，PC会指向下一条指令，相对寻址是相对于下一条指令的偏移

4.8 堆栈寻址

$SP$ 当中。

$/$ 写单元的地址是用一个特定的寄存器给出的，该寄存器称为堆栈指针(SP)。

这个堆栈可以用两种方式实现：一种是采用专门寄存器存放专门元素。另一种方式是在主存中划出一片区域用作堆栈。

用寄存器实现堆栈原理：

$SP$ $SP\rightarrow R_0$ $SP$ 只需要用两位就可以表示所有的值。

$ACC$ $X$ $ALU$ $POP$ $ACC$ $SP+1$ $R_1$ $POP$ $X$ $SP+1$ $R_2$ $ADD$ $Y$ $PUSH$ $Y$ $SP-1$ $R_1$ $Y$ $SP$ $R_1$ 寄存器中。

汇编指令如下：

上面情况是栈顶在小地址方向，还有的情况是栈顶在大地址方向。栈顶大地址方向的汇编指令：

上面通过几个寄存器实现的堆栈称为硬堆栈。还有一种方式是软堆栈，即从主存中划出一片区域当堆栈。这种方式通过POP和PUSH对栈进行操作都会进行一次访存，而硬堆栈由于存放在寄存器中所以不用进行访存。

显然采用寄存器实现的硬堆栈速度更快，但成本高；而软堆栈访问速度慢，但成本更低。在实际的系统中通常采用软堆栈实现。堆栈可用于函数调用时保存当前函数的相关信息。

十种寻址方式总结：

5. 高级语言与机器级代码之间的对应

机器语言与汇编语言都是机器级代码。考试只考x86汇编语言，如果考察其他汇编语言题中会给出详细注释。

5.1 x86汇编语言指令基础

$+$ 地址码，操作码指出数据怎么处理，地址码指明了数据存放在哪。而数据可以存放在寄存器中，主存里，指令里。如果是在寄存器中，指令给出寄存器名即可。如果是在主存中，指令给出主存地址即可，同时要指明读写长度。如果在指令中就是立即寻址。

$mov$ 指令为例：

语法格式	功能
$mov$ $d$ $s$	$s$ $d$ 所指的位置


1
mov eax,ebx                 #将寄存器ebx的值复制到寄存器eax
2
mov eax,5                   #将立即数5复制到寄存器eax
3
mov eax,dword ptr[af996h]   #将内存地址af996h所指的32bit值复制到寄存器eax
4
mov byte ptr[af996h],5      #将立即数5复制到内存地址af996h所指的--字节中

上面中括号表示主存地址。

如何指明内存的读写长度：dword ptr：双字(32bit)；word ptr：单字(16bit)；byte ptr：字节(8bit)

$E=Extended=32bit$ $e$ 开头。

前四个为一组用于存什么数据未知，所以称为通用寄存器。

$ESI,EDI$ 是变址寄存器。变址寄存器可用于线性表、字符串的处理。

$EBP,ESP$ 分别指明堆栈的基指针和顶指针。主要用于实现函数的调用。

$E$ $16bit$ $ax$ $EAX$ $16bit$ 。

$8bit$ $ah$ $EAX$ $8bit$ 。

$32bit$ 。

在看几个常见操作：


xxxxxxxxxx
7
1
mov eax,dword ptr [ebx]         #将ebx所指主存地址的32bit复制到eax寄存器中
2
mov dword ptr [ebx],eax         #将eax的内容复制到ebx所指主存地址的32bit
3
mov eax, byte ptr [ebx]         #将ebx所指的主存地址的8bit复制到eax
4
mov eax,[ebx]                   #若未指明主存读写长度，默认32 bit
5
mov [af996h],eax                #将eax的内容复制到af996h所指的地址(未指明长度默认32bit)
6
mov eax,dword ptr [ebx+8]       #将ebx+8所指主存地址的32bit复制到eax寄存器中
7
mov eax, dword ptr [af996-12h]  #将af996-12所指主存地址的32bit复制到eax寄存器中

5.2 常用的汇编指令

x86常见的算术运算指令：

功能	汇编指令	解释
加	add d,s	$d+s$ $d$
减	sub d,s	$d-s$ $d$
乘	mul d,s imul d,s	$ds$ $d$ $ds$ $d$
除	div s idiv s	无符号数除法edx:eax/s，商存入eax，余数存入edx 有符号数除法edx:eax/s，商存入eax，余数存入edx
取负数	neg d	$d$ $d$
自增	inc d	$d++$ $d$
自减	dec d	$d--$ $d$

两个操作数不能同时来自主存 $d$ $d$ 不可能是常量，只可能是寄存器或者主存地址。

$div\quad s$ $s$ $edx$ $eax$ $edx:eax$ $\frac{32bit}{32bit}$ $64bit$ $\frac{64bit}{32bit}$ $32bit$ $edx$ $32$ $eax$ $32$ 位。

通常会用<reg>代表寄存器、<mem>代表内存、<con>代表常数。

x86常见的逻辑指令

功能	汇编指令	解释
与	and d,s	$d$ $s$ $d$
或	or d,s	$d$ $s$ $d$
非	not d	$d$ $d$
异或	xor d,s	$d$ $s$ $d$
左移	shl d,s	$d$ $s$ $d$ $s$ 是常量)
右移	shr d,s	$d$ $s$ $d$ $s$ 是常量)

其他指令：

用于实现分支结构、循环结构的指令：cmp、test、jmp、jxxx

用于实现函数调用的指令：push、pop、call、ret

用于实现数据转移的指令：mov

5.3 AT&T格式的汇编指令

AT&T格式常用于Unix和Linux。intel格式常用于Windows。

AT&T常用格式：

功能	汇编指令	解释	对应intel格式
$d$ $s$	op s,d	源操作数在做，目的操作数在右	op d,s
寄存器表示	mov %ebx,%eax	$\%$ "	mov eax,ebx
立即数的表示	$\$$ 985,%eax	$\$$ "	mov eax,985
主存地址的表示	mov %eax,(af996h)	主存地址用小括号表示	mov [af996h],eax
读写长度的表示	$\$$ $\$$ $\$$ $\$$ 5,(af996h)	$b,w,l$ 分别表示读写长度byte、word、dword	mov byte ptr [af996h],5 mov word ptr [af996h],5 mov dword ptr [af996h],5 add byte ptr [af996h],4
主存地址偏移量的表示	movl -8(%ebx),%eax movl 4(%ebx,%ecx,32),%eax	偏移量(基址)	mov eax,[ebx-8] mov eax,[ebx+ecx*32+4]

对于最后mov eax,[ebx+ecx*32+4]，做一下详细解释：

$3$ $1$ $基址+变址*比例因子$ $32bit$ $0$ $4B$ $1$ $ebx+3*32+4$

5.4 汇编选择语句

前面已经介绍基本汇编语句，这里会介绍选择语句的汇编方式。

$PC$ $+1$ $PC$ $IP$ 。

改变程序执行流需要用到无条件转义指令：JMP

指令名	语法	功能
jmp	jmp <地址>	PC无条件转移至地址处

这里的<地址>可以是常数、寄存器、主存。但最常用还是"标号"锚定：


xxxxxxxxxx
6
1
mov eax,7
2
mov ebx,6
3
jmp NEXT
4
mov ecx, ebx
5
NEXT :          #用"标号”锚定位置
6
mov ecx, eax

jmp NEXT $PC$ 会跳转到最后一行，即NEXT标记的位置。这里的标号不一定是NEXT，可以自定义名字。

JMP指令类似于C语言的goto语句，虽然能实现跳转，但无法实现if...else..语句。要实现选择语句需要用到条件转移指令jxxx。

常用的jxxx语句及功能：

语句	语法	功能
je	je <地址>	若`a==b`则跳转
jne	jne <地址>	若`a!=b`则跳转
jg	jg <地址>	若`a>b`则跳转
jge	jge <地址>	若`a>=b`则跳转
jl	jl <地址>	若`a<b`则跳转
jle	jle <地址>	若`a<=b`则跳转

上面指令通常要搭配CMP指令，CMP指令用于比较两个数。

语法	功能
cmp a,b	$a$ $b$ $a,b$ 可能是常量、主存地址或寄存器

例1：


xxxxxxxxxx
2
1
cmp eax,ebx     #比较寄存器eax和ebx里的值
2
jg NEXT         #若eax > ebx,则跳转到NEXT:

例2：将下面C语言转换为汇编语言


xxxxxxxxxx
5
1
if(a>b){
2
    c=a;
3
}else{
4
    c=b;
5
}

汇编语言：


xxxxxxxxxx
9
1
mov eax,7       #假设变量a=7,存入eax 
2
mov ebx,6       #假设变量b=6,存入ebx
3
cmp eax,ebx     #比较变量a和b
4
jg NEXT     #若a>b,转移到NEXT:
5
mov ecx,ebx     #假设用ecx存储变量c,令c=b
6
jmp END         #无条件转移到END :
7
NEXT:
8
mov ecx,eax     #假设用ecx存储变量c,令c=a
9
END:

扩展：CMP指令的底层原理。

之前学习过，每次ALU运算都会产生新的标志位覆盖上次标志位：

$1$ $0$ 。
$1$ $0$ 。
$0$ $1$ $0$
$/$ $/$ $1$ $0$

$a-b$ 的运算，这个运算会产生上面几个标志位。这些标志位，会存放到PSW程序状态寄存器中，intel称其为标志寄存器。

jnea!=b $ZF$ $0$ $0$ 满足条件进行跳转。其他指令也可以从标志位中得出跳转信息：


xxxxxxxxxx
6
1
je <地址>     #若a==b则跳转,ZF==1?
2
jne <地址>    #若a!=b则跳转,ZF==0?
3
jg <地址>     #若a>b则跳转,ZF==0&&SF==OF?
4
jge <地址>    #若a>=b则跳转,SF==OF?
5
jl <地址>     #若a<b则跳转,SF!=OF?
6
jle <地址>    #若a<=b则跳转,SF!=OF||ZF==1?

5.5 循环语句的汇编实现

可以用条件转移指令实现循环。有以下C语言代码：


xxxxxxxxxx
4
1
int resul=0;
2
for(int i=1;i<=100;i++) {
3
    result +=i;
4
} //求1+2+3+. . .+100

转换为汇编语言：


xxxxxxxxxx
10
1
mov eax,0       #用eax保存result,初值为0
2
mov edx,1       #用edx保存i, 初始值为1
3
cmp edx,100     #比较i和100
4
jg L2           #若i>100，转跳到L2执行
5
L1:             #循环主体
6
add eax,edx     #实现result +=i
7
inc edx         #inc自增指令,实现i++
8
cmp edx,100     #比较i和100
9
jle L1          #若i<=100,转跳到L1执行
10
L2:             #跳出循环主体

$4$ 个部分构成：

循环前初始化
是否直接跳出循环
进入循环主体
是否继续循环

除了用条件转移指令实现，还可以用LOOP指令。

指令语法	功能
loop 循环体名	$--$ $0$ ，跳转到循环体

实现：有以下一段C语言


xxxxxxxxxx
3
1
for(int i=500;i>0;i--){
2
    //...
3
}//循环500次

使用LOOP指令实现循环：


xxxxxxxxxx
5
1
mov ecx,400         #用ecx作为循环计数器
2
Looptop:            #循环体
3
#...
4
#...
5
loop Looptop        #ecx--,若ecx!=0,则跳转到Looptop循环体

上面汇编代码可以知道LOOP指令相当于：


xxxxxxxxxx
3
1
dec ecx
2
cmp ecx,0
3
jne Looptop

注意：ecx可以作为循环计数器，其寄存器不能，所以这里必须用ecx寄存器。

理论上能用loop指令实现的功能一定能用条件转移指令实现。而使用loop指令可能会使代码更清晰简洁。

补充：loop指令还有loopx指令。如loopnz,和loopz。其中loopnz是当ecx!=0&&ZF==0时，继续循环。而loopz是当ecx!=0&&ZF==1时,继续循环。

5.6 函数调用汇编实现

高级语言在执行函数如main()函数时，会先将其压入函数调用栈，这个压入的函数称为栈帧。如果main()函数调用其他函数时，仍会将被调用函数压入函数栈中，称为栈帧。

每个函数的栈帧中包含函数达阔内定义的局部变量和保存函数调用的信息。

其中caller()和add()函数代码如下：


x
1
int caller() {
2
    int temp1=125;
3
    int temp2=80;
4
    int sum=add(templ,temp2);
5
    return sum;
6
}
7

8
int add(int x,int y){
9
    return x+y;
10
}

对应的汇编代码如下：


xxxxxxxxxx
25
1
#caller()
2
caller:
3
push ebp
4
mov ebp,esp
5
sub esp,24
6
mov [ebp-12],125
7
mov [ebp-8],80
8
mov eax,[ebp-8]
9
mov [esp+4],eax
10
mov eax,[ebp-12]
11
mov esp,eax
12
call add
13
mov[ebp-4],eax
14
mov eax,[ebp-4]
15
leave
16
ret
17
#add()
18
add:
19
push ebp
20
mov ebp,esp
21
mov eax,[ebp+12]
22
mov edx,[ebp+8]
23
add eax,edx
24
leave
25
ret

所以可以知道函数调用指令是：call 函数名。函数返回指令是：ret。

$PC$ ret $PC$ $PC$ $IP$ 。

CALL指令作用：

$IP$ 指向的旧值压栈保存(保存在函数的栈帧顶部)
$IP$ 新值，无条件转移至被调用函数的第一条指令

$IP$ $IP$ 寄存器。

$IP$ $IP$ $IP$ $IP$ 寄存器。这一就完成函数调用。

栈帧中数据的访问

之前看到的函数调用栈实际在内存中是倒过来存放的。

这是因为在内存中，栈底对应的是内存的高地址，栈顶对应的是低地址。

之前学过x86中的寄存器，其中EBP和ESP寄存器分别用于存储堆栈基指针和堆栈顶指针。并且在一个CPU内部只有一个EBP和ESP。

$4$ 字节为单位。指令格式如下:

指令语法	功能	注意事项
push a	$4$ $a$ 压入栈中	$a$ 可以是立即数、寄存器或主存地址
pop b	$b$ $4$	$b$ 可以是寄存器、主存地址

例子：


xxxxxxxxxx
5
1
push eax        #将寄存器eax的值压栈
2
push 985        #将立即数985压栈
3
push [ebp+8]    #将主存地址[ebp+8]里的数据压栈
4
pop eax         #栈顶元素出栈,写入寄存器
5
pop [ebp+8]     #栈顶元素出栈,写入主存地址[ebp+8]

$211$ 。内存结构如下(黄色部分是一个函数esp指向栈顶，ebp指向栈底)：

push eax $-4$ ，即向下移动四个字节，让后将eax中的值放入esp指向的位置，即栈顶。

push 985 $-4$ $985$ 值放入esp指向的位置，即栈顶。

push [ebp+8] $ebp+8,esp-4$ $666$ 放入栈顶。

pop eax $esp$ $esp+4$ 。

之后的指令执行原理同上。

通过上面例子可以发现push和pop只能对栈顶元素进行操作，这样访问就有限制，还有更灵活的方法mov指令。

可以使用加法指令和减法指令来对esp和edp两个指针进行移动。

例子：


xxxxxxxxxx
6
1
sub esp,12          #栈顶指针-12
2
mov[ esp+8],eax     #将eax的值复制到主存[esp+8]
3
mov [esp+4],958     #将985复制到主存[esp+4]
4
mov eax,[ebp+8]     #将主存[ebp+8]的值复制到eax
5
mov [esp],eax       #将eax的值复制到主存[esp]
6
add esp,8           #栈顶指针+8

其内存中的结构如下：

sub esp,12这条指令会让esp指针向下移动三位。

之后执行原理类似。

$/$ $/$ add修改栈顶指针esp的值。

切换栈帧

当发生函数调用时，需要修改ebp和esp指向，让其指向新的函数顶部和底部。这个切换过程原理如下：

call add $IP$ $IP$ 跳转至被调用函数开头位置。
被调用函数开头都会有两个指令
```
xxxxxxxxxx
2
1
push ebp 
2
mov ebp,esp
```
第一条指令会把栈底基地址压入栈顶，第二条指令会将ebp指向esp当前位置
这么做当一层函数执行结束要返回之前，总能在当前函数的栈底找到上一个函数基地址。这样既可以恢复ebp寄存器的值。
以上两条指令可以精简为enter。
之后被调用函数执行对应操作，最函数执行完毕准备ret返回指令之前，所有函数都会进行两步操作
```
xxxxxxxxxx
2
1
mov esp,ebp     #让esp指向当前栈帧的底部
2
pop ebp         #将esp所指元素出栈，写入寄存器ebp
```
$+4$ $IP$ 旧地址值的位置。也就是让ebp指针重新指向上一个函数栈底。
上面两条指令等价于leave指令。
$IP$ $IP$ 寄存器当中。也就是让程序执行流恢复到调用函数之后的一行。

总结：

每个被调用函数在执行前都会有enter部分，最后都会有leave部分。

栈帧中包含的内容

当前有一段代码


xxxxxxxxxx
10
1
int caller() {
2
    int temp1=125;
3
    int temp2=80;
4
    int sum=add(templ,temp2);
5
    return sum;
6
}
7

8
int add(int x,int y){
9
    return x+y;
10
}

假设当前运行的是caller()函数，根据之前内容，可以知道栈帧中通常包含以下内容：

栈帧底部一定是上一层函数栈帧的基址，即edp旧址。
$IP$ 寄存器旧址
通常将局部变量集中存储在栈帧底部区域。C语言中越靠前定义的局部变量越靠近栈顶。
$edp-4$ 就可以找到第一个局部变量 $edp-8$ 就是第二个局部变量等。
通常将调用参数集中存储在栈帧顶部区域
如果当前运行的是add函数，此时edp指向add函数栈底位置。此时 $edp+8,edp+4$ $x$ $y$ 参数的值。

所以一个函数栈内容分布如下：

$16B$ 的整数倍(当前函数的栈帧除外)，因此栈帧内可能出现空闲未使用的区域。

栈帧内容总结：

函数参数与返回值的传递

$edp$ 向上移动可以获取。

有以下一段汇编代码


xxxxxxxxxx
16
1
#caller()
2
caller:
3
push ebp
4
mov ebp,esp
5
sub esp,24
6
mov [ebp-12],125
7
mov [ebp-8],80
8
mov eax,[ebp-8]
9
mov [esp+4],eax
10
mov eax,[ebp-12]
11
mov esp,eax
12
call add
13
mov [ebp-4],eax
14
mov eax,[ebp-4]
15
leave
16
ret

执行完这段汇编程序后，函数栈如下：

之后会执行call add指令，add函数汇编指令如下：


xxxxxxxxxx
9
1
#add()
2
add:
3
push ebp
4
mov ebp,esp
5
mov eax,[ebp+12]
6
mov edx,[ebp+8]
7
add eax,edx
8
leave
9
ret

执行完mov ebp,esp指令后栈帧如下：

之后mov eax,[ebp+12]mov edx,[ebp+8] $y,x$ $eax,edx$ add eax,edx $eax$ 中。

最后执行leave指令切换上一层函数栈帧，再执行ret指令让程序回到函数调用后的一行继续执行。

可以看到add函数将返回值写到eax寄存器中。所以caller函数中的mov [ebp-4],eax就是取返回值的操作。即对应C语言中的sum=add(temp1,temp2)操作。之后仍会把sum放入eax寄存器，让上一层函数取返回值，即mov eax [ebp-4]。由于C语言的返回值只有一个，所以通常会把返回值写入eax中。这样上一层函数直接去eax中取出返回值即可。

至此对函数调用机器级语言进行总结：

$eax$ $eax$ $eax$ 中的值进行压栈保存即可。等函数返回后再将这些值从栈中恢复到寄存器即可。所以函数栈中还可能有一层是保存部分寄存器的值。

6. CISC和RISC

CISC和RISC是指令设计的两个方向。

CISC(复杂指令集计算机系统)：设计思路是一条指令完成一个复杂的基本功能。代表：x86架构，主要用于笔记本、台式机等。

RISC(精简指令集计算机系统)：设计思路是一条指令完成一个基本动作，多条指令组合完成一个复杂的基本功能。代表：ARM架构、手机、平板等。

$80\%$ $20\%$ 的复杂指令。

$/$ $/$ 乘运算的指令集：

CISC设计思路：
$6$ 套电路实现，其中矩阵乘法的电路设计起来非常困难。
$5$ $5$ 个通用基本指令完成的操作，这就是微程序的概念。
RISC设计思路：
只提供整数的加减乘指令。
$3$ 套电路即可，所以电路设计相对简单，功耗更低。
由于RISC设计思路的指令都很简单，所以这些指令执行时间都差不多，这个特性可以很方便实现"并行"、"流水线"。

CISC和RISC对比

对比项目	CISC	RISC
指令系统	复杂、庞大、丰富	简单、精简
指令数目	$200$ 条	$100$ 条
指令字长	不固定	定长
可访存指令	不加限制	$Load/Store$ 指令可以访存
各种指令执行时间	相差较大	绝大多数在一个周期内完成
各种指令使用频度	相差很大	都比较常用
通用寄存器数量	较少	多
目标代码	难以用优化编译生成高效的目标代码程序	采用优化的编译程序，生成代码较为高效
控制方式	绝大多数为微程序控制	绝大多数为组合逻辑控制(效率更高)
指令流水线	可以通过一定方式实现	必须实现

五. 中央处理器

本章会基于之前的学习进行补充和完善。

CPU基本构成是：ALU(第二章已学)、寄存器(第三章已学)、中断系统(最后一章)、CU控制单元(本章)。

1. CPU的功能和基本结构

CPU需要实现以下功能：

指令控制。完成取指令、分析指令和执行指令的操作，即程序的顺序控制。
操作控制。一条指令的功能往往是由若干操作信号的组合来实现的。CPU管理并产生由内存取出的每条指令的操作信号，把各种操作信号送往相应的部件，从而控制这些部件按指令的要求进行动作。
时间控制。对各种操作加以时间上的控制。时间控制要为每条指令按时间顺序提供应有的控制信号。
数据加工。对数据进行算术和逻辑运算。
中断处理。对计算机运行过程中出现的异常情况和特殊请求进行处理。
正常情况下CPU会顺序执行程序，但计算机内会有一些突发的状况(如鼠标单击其他软件)，因此需要这种中断处理。当CPU检测到特殊的中断信号后，会转而处理中断程序的一系列指令代码，当中断执行完后再回去执行原本的程序指令。

CPU结构如下：

从运算器和控制器角度对CPU功能进行分类：

运算器会对程序进行加工操作。

控制器：协调并控制计算机各部件执行程序的指令序列，基本功能包括取指令、分析指令、执行指令

$PC+1$ 。另外再每一条指令运行结束后，控制器也应该发出下一条取指令的命令。
分析指令：将指令的操作码译码(分析本条指令要完成什么操作)，同时会产生操作数的有效地址。
$I/O$ 设备完成相应的操作。
中断处理：每执行完一条指令，CPU都会检查是否有中短信号需要处理。如果有CPU会对总线及输入输出设备进行应有的响应。同时也会处理异常情况(如掉电)和特殊请求(打印)。

接下来会详细探讨运算器和控制器基本结构。

1.1 运算器基本结构

上面介绍过运算器由两部分构成：算术逻辑单元和通用寄存器组。

$/$ 逻辑运算。

通用寄存器组：如AX、BX、CX、DX、SP等，用于存放操作数(包括源操作数、目的操作数及中间结果)和各种地址信息等。其中SP是堆栈指针，用于指示栈顶的地址。

$AH,AL$ $AX$ $16bit$ $16$ $32$ 根连线连接ALU。

上面这种连线方式称为专用数据通路：根据指令执行过程中的数据和地址的流动方向安排连接线路。显然这种连接方式由于寄存器数目增加连接线路也会越来越多，所以制造成本会提高。

所以专用数据通路优势：性能较高，基本不存在数据冲突现象，但结构复杂，硬件量大，不易实现。

$A,B$ 只需要两个寄存器提供数据就可以。解决这种问题方法：

解决方案一
使用多路选择器(MUX)。根据控制信号选择一路输出。
$ADD$ $R_0,R_1$ $MUX$ $00$ $R_0$ $A$ $MUX$ $01$ $R_1$ 这个寄存器数据通过。
解决方法二
使用三态门。每一个三态门可以控制每一路是否输出。
$R0out$ $1$ $R_0$ $A$ $R0out$ $0$ $R_0$ $B$ 端。

上面是专用数据通路实现方式，还有另一种连接方式：CPU内部单总线方式。

CPU内部单总线方式：将所有寄存器的输入端和输出端都连接到一条公共的通路上。

$R_0$ $R_2$ $R_2$ $R2in$ $R_2$ $R_0$ $R_2$ 寄存器中。

这种内部单总线方式结构简单，容易实现，但数据传输存在较多冲突的现象，性能较低。

$ADD$ $R_0,R_2$ 两个数据相加，这两个寄存器中的数据通过数据总线流入ALU，由于两个寄存器数据都通过一条总线，所以产生数据冲突问题。解决方法是在ALU其中一个输入端增加暂存寄存器。

$R_0$ $R_0$ $R_0$ $R_0$ $R_2$ $R_2$ $B$ $R_0$ 寄存器中。

$B$ $R_0$ $R_0$ 中。

同时为了方便某些复杂运算的实现，ALU输出端的暂存寄存器还可以增加一些。如：移位功能变为移位寄存器，累加功能变为累加寄存器。不过最常用的做法是在数据总线上多增加一个ACC累加寄存器。

$PSW$ $PSW$ 中的这些标志位参与并决定微操作的形成。

$+$ 移位操作。因此ALU输出端寄存器通常用作移位使用。

最后运算器内部还需要提供计数器，用于控制乘除运算的操作步数。

所以运算器内部结构总结如下：

$/$ 逻辑运算。
通用寄存器组：如AX、BX、CX、DX、SP等，用于存放操作数(包括源操作数、目的操作数及中间结果)和各种地址信息等。SP是堆栈指针，用于指示栈顶的地址。
暂存寄存器：用于暂存从主存读来的数据，这个数据不能存放在通用寄存器中，否则会破坏其原有内容。
累加寄存器：它是一个通用寄存器，用于暂时存放ALU运算的结果信息，用于实现加法运算。
程序状态字寄存器：保留由算术逻辑运算指令或测试指令的结果而建立的各种状态信息。如：溢出标志(OP)、符号标志(SF)、零标志(ZF) 、进位标志(CF)等。PSW中的这些位参与并决定微操作的形成。
移位器：对运算结果进行移位运算。
计数器：控制乘除运算的操作步数。

1.2 控制器内部基本结构

控制器内部总结构：

程序计数器：用于指出下一-条指令在主存中的存放地址。CPU就是根据PC的内容去主存中取指令的。因程序中指令(通常)是顺序执行的，所以PC有自增功能。
指令寄存器：用于保存当前正在执行的那条指令。
指令译码器：仅对操作码字段进行译码，向控制器提供特定的操作信号。
微操作信号发生器:根据IR的内容(指令)、PSW的内容(状态信息)及时序信号，产生控制整个计算机系统所需的各种控制信号，其结构有组合逻辑型和存储逻辑型两种。
时序系统：用于产生各种时序信号，它们都是由统，一时钟(CLOCK)分频得到。
存储器地址寄存器：用于存放所要访问的主存单元的地址。
存储器数据寄存器：用于存放向主存写入的信息或从主存中读出的信息。

$PC$ ，其有自增功能，而有的计算机是送给ALU实现自增的。

$IR$ 当中。一个指令由操作码和地址码构成，地址码可以有多个。地址码指明了操作数的存放地址。所以地址码会输送到内部总线上，而操作码部分会送给控制单元。

首先这个指令码会送给指令译码器，输入后这个译码器根据操作会将某一段打通。根据译码器输出信号就可以决定接下来是哪些微操作。所以译码器的输出信号会作为微操作信号发生器的输入信号，用来判断该指令对应的微操作序列应该是什么。

$PSW$ 标志信息决定接下来的微操作。

$AdIr_{out}$ $MAR_{in}$ 一个有效信号，这样这个地址信息会输入到寄存器MAR当中。之后MAR会将地址信息通过地址总线传送给主存，主存根据信号地址取出数据放回MDR中。

$MDR_{in}E$ $MDR_{in}$ 指的是从CPU内部的总线输入数据通路是否有效。

CPU内部完整结构总结：

上面橙色寄存器是可用于编程的，灰色是不可以编程使用的。

2. 指令执行过程

指令周期：CPU从主存中每取出并执行一条指令所需的全部时间。

一个指令周期可以被划分为：取值周期和执行周期两个部分。

$PC+1$ 。之后对指令进行译码，这个译码过程很快。
执行周期：执行指令。这个过程有可能需要访存，所以时间差别很大。执行完成后就可以进入下一个指令周期。

指令周期常常用若干机器周期来表示，机器周期又叫CPU周期。一个机器周期又包含若干时钟周期(也称为节拍、T周期或CPU时钟周期，它是CPU操作的最基本单位)。

$4(T_0,T_1,T_2,T_3,T_4)$ 。所以被称为定长机器周期。但事实上对于取指令和执行指令时间很大概率是各不相同的，时间和访问主存有关，通常情况下都是不定长的机器周期。

2.1 CPU处理各种指令的周期

每个指令周期内机器周期数可以不等，每个机器周期内的节拍数也可以不等。看下边几个例子可以加深对这句话理解。

$NOP$ 。这个周期CPU会先取指令，之后分析指令发现是空指令，所以什么都不用做，接着取下一条指令。
因此空指令周期只做了取指令这一个操作。所以只包含一个机器周期。
加法指令：首先CPU要取出指令，并分析。之后经过几步微操作实现执行指令。
所以这条指令包含了两个机器周期：取值周期和执行周期。并且这两个机器周期长度可能不一样。
乘法指令：同样CPU要先取指令，之后经过更长时间的微操作执行指令。
所以乘法指令执行周期要比加法执行周期长。
具有间接寻址的指令：CPU取指令，之后很具形式地址取得有效地址称为间址周期。最后再执行指令操作。
带有中断周期的指令：很多指令再取值周期、间址周期和执行周期结束后还有一个中断周期。这个时期CPU会检查是否有中断信号要进行处理。

指令周期执行流程：

CPU可以通过触发器判断现在位于哪个周期。上面四个周期可以设置四个触发器。

$1$ $FE$ $1$ $0$ $1$ $0$ 。

四个工作周期都有CPU访存操作，只是访存的目的不同。取指周期是为了取指令，间址周期是为了取有效地址，执行周期是为了取操作数，中断周期是为了保存程序断点。

2.2 四个执行周期执行原理

上面介绍了CPU四个执行周期：取址周期、间址周期，执行周期和中断周期。

取址周期

这个周期执行流程有以下几个阶段：

$(PC)\rightarrow MAR$
$1\rightarrow R$
$M(MAR)\rightarrow MDR$
$(MDR)\rightarrow IR$
$(PC)+1\rightarrow PC$

间址周期

间址周期执行流程有以下几个阶段：

$IR$ $Ad(IR)\rightarrow MAR$ $Ad(MDR)\rightarrow MAR$
$1\rightarrow R$
$M(MAR)\rightarrow MDR$
$(MDR)\rightarrow Ad(IR)$

中断周期

执行周期的任务是根据IR中的指令字的操作码和操作数通过ALU操作产生执行结果。不同指令的执行周期操作不同，因此没有统一的数据流向。所以之后做讨论。

所谓中断就是暂停当前任务取完成其他任务。为了能够恢复当前任务，需要保存断点。一般使用堆栈来保存断点，这里用SP表示栈顶地址，假设SP指向栈顶元素，进栈操作是先修改指针，后存入数据。这个保存断点过程具体实现如下：

$1$ $(SP)-1\rightarrow SP$ $(SP)\rightarrow MAR$ $a$ $a\rightarrow MAR$
$1\rightarrow W$
$(PC)\rightarrow MDR$
$向量地址\rightarrow PC$

2.3 指令执行方案

显然不同指令指令周期长度不同，当希望可以连续执行多条指令的时候有以下几个方案：

方案一：单指令周期
对所有指令都选用相同的执行时间来完成。即将周期短的指令，增加周期，使其和最长指令执行周期对齐。
指令之间串行执行。指令周期取决于执行时间最长的指令的执行时间。
缺点：对于那些本来可以在更短时间内完成的指令，要使用这个较长的周期来完成，会降低整个系统的运行速度。
方案二：多指令周期
对不同类型的指令选用不同的执行步骤来完成。
指令之间串行执行；可选用不同个数的时钟周期来完成不同指令的执行过程。
缺点：需要更复杂的硬件设计。
方案三：流水线方案
在每一个时钟周期启动一条指令，尽量让多条指令同时运行，但各自处在不同的执行步骤中。
这种方案指令之间并行执行。这种方案最常用会在后面详细介绍。

3. 数据通路

数据通路：数据在功能部件之间传送的路径。

数据通路的基本结构：

CPU内部单总线方式：将所有寄存器的输入端和输出端都连接到一条公共的通路上。在同一时刻只允许两个部件之间进行数据交换。
CPU内部多总线方式：将所有寄存器的输入端和输出端都连接到多条公共的通路上。
$16bit$ $16$ $32$ 根连线连接ALU。

下面对单总线方式和专用数据通路方式做详细探讨。

3.1 CPU内部单总线方式

无论哪种方式其目的都是为了实现数据流动，这要是数据通路存在本质。一般来说数据流动可以分为三类：

寄存器与寄存器之间的流动
寄存器与主存之间的数据流动
寄存器与ALU算术逻辑单元之间的流动

之前提到过内部总线和系统总线概念：

内部总线是指同一部件，如CPU内部连接各寄存器及运算部件之间的总线；
$I/O$ 接口间互相连接的总线。

单总线连接方式如下：

$in$ $out$ $CU$ $in/out$ 操作。

寄存器之间的数据传送

如果将上图PC内容送到MAR中，实现传送操作流程及控制信号为：

$PCout$ $PC\rightarrow BUS$ 。这里的BUS即内部总线。
$MARin$ $Bus\rightarrow MAR$

标准答题流程：

$(PC)\rightarrow Bus\rightarrow MAR$ $PC\rightarrow Bug\rightarrow MAR$

$out$ $in$ 信号有效输入。

主存与寄存器之间的数据传送

比如IR从主存读取指令，实现传送操作的流程及控制信号为：

执行算术或逻辑运算，比如一条加法指令，微操作序列及控制信号为：

上面CU单元通过不同控制信号完成每一次的微操作。上面每一个微操作都至少消耗一个时钟周期。

单总线方式例题

设有如图所示的单总线结构，分析指令ADD (R0), R1的指令流程和控制信号。其中(R0)代表R0寄存器中存放的是形式地址。

上图中MemR表示主存读信号，MemW表示主存写信号。

操作分三个周期：取址周期、间址周期、执行周期

取址周期
时序微操作有效控制信号
1 $\rightarrow$ MAR PCout，MARin
2 $\rightarrow$ MDR MARout，MemR，MDRinE
3 $\rightarrow$ IR MDRout，IRin
4 指令译码
5 $+1$ $\rightarrow$ PC
间址周期
时序微操作有效控制信号
1 $\rightarrow$ MAR R0out，MARin
2 $\rightarrow$ MDR MemR，MARout，MDRinE
3 $\rightarrow$ Y MDRout，Yin
$Y$ 表示暂存寄存器。
执行周期
时序微操作有效控制信号
1 $+$ $\rightarrow$ Z R1out，ALUin，CU向ALU发ADD控制信号
2 $\rightarrow$ MDR Zout，MDRin
3 $\rightarrow$ M(MAR) MemW，MDRoutE，MARout

时序	微操作	有效控制信号
1	$\rightarrow$ MAR	PCout，MARin
2	$\rightarrow$ MDR	MARout，MemR，MDRinE
3	$\rightarrow$ IR	MDRout，IRin
4	指令译码
5	$+1$ $\rightarrow$ PC

时序	微操作	有效控制信号
1	$\rightarrow$ MAR	R0out，MARin
2	$\rightarrow$ MDR	MemR，MARout，MDRinE
3	$\rightarrow$ Y	MDRout，Yin

时序	微操作	有效控制信号
1	$+$ $\rightarrow$ Z	R1out，ALUin，CU向ALU发ADD控制信号
2	$\rightarrow$ MDR	Zout，MDRin
3	$\rightarrow$ M(MAR)	MemW，MDRoutE，MARout

3.2 专用数据通路

在任何两个需要流通数据的部件之间都建立专用的数据通路。

$C_{n}$ 指的是控制信号。基于这种方式取出指令周期如下：

$C_0$ $(PC)\rightarrow MAR\quad C_0$ 有效。
$1\rightarrow R$
$M(MAR)\rightarrow MDR\quad C_2$ 有效。
$(MDR)\rightarrow IR\quad C_3$ 有效。
$PC+1\rightarrow PC$ 。
$Op(IR)\rightarrow CU\quad C_4$ 有效。

$4$ 个寄存器：主存地址寄存器(MAR) 、主存数据寄存器(MDR) 、程序寄存器(PC) 和指令寄存器(IR) ，各部件及其之间的连线表示数据通路，箭头表示信息传递方向。

$a,b,c,d$ 四个寄存器的名称。
$d$ $+1$ $PC$
$c$ 是MAR
$b$ $b$ $IR$
$/$ $a$ 是MDR
简述图中取指令的数据通路
$PC\rightarrow MAR$ 。由于指令地址放在PC中，所以PC数据送给MAR。
$\rightarrow$ MDR
$\rightarrow$ IR
$\rightarrow$ 微操作发生器。将IR中的指令送给微操作发生器进行解析
$(PC)+1\rightarrow PC$
$/$ $/$ 取数据放入ACC中。
设数据地址已经在MAR中
$M(MAR)\rightarrow MDR$
$(MDR)\rightarrow ALU\rightarrow ACC$
$(ACC)\rightarrow MDR$
$(MDR)\rightarrow M(MAR)$
$\rightarrow$ ACC)
$\rightarrow$ MAR
$\rightarrow$ MDR
$\rightarrow$ $\rightarrow$ ACC
$+$ $\rightarrow$ ACC)
$\rightarrow$ MAR
$\rightarrow$ MDR
$\rightarrow$ $\rightarrow$ ALU
$\rightarrow$ ACC
$X$ ，所以这里直接放入ALU完成加法操作。
$\rightarrow$ Z)
$\rightarrow$ MAR
$\rightarrow$ MDR
$\rightarrow$ M(MAR)

4. 控制器的设计

$FE=1$ $IND=1$ $EX=1$ $INT=1$ )。

$1$ $PCout,MARin$ $1(PC)\rightarrow MAR$ 。

所以微命令和微操作概念是一一对应的。微操作更多是在描述工作要完成什么内容；而微命令是指要完成这个工作所需要发出的控制信号。所以每发出一条微命令就会完成与之对应的一个微操作。并且有的微操作是有可能并行进行的，比如采用专用通路方式，在这种结构下可以完全让多个寄存器之间的数据同时进行并行的流动。因此每个节拍可以完成并行的不冲突的操作。

$T_0$ $T_0$ 节拍内什么都没做，即这两个周期只需要两个节拍就可以完成工作，但还是有三个节拍，这也就意味着在这个例子中采用了定长机器周期这样一个策略，可以让电路设计更简单。

这个例子有以下特质：

一个节拍内可以并行完成多个"相容的"微操作。即如果两个微操作执行不会相互冲突，不会相互制约，那么就可以把多个微操作安排在一起。这样可以使CU在一个节拍内完成更多的事情。
$T_0$ $2$ $T_0$ $M(MAR)\rightarrow MDR$ 这个操作在很多周期内都会重复使用到。
访存所需节拍数 $3$ 。
若实际所需节拍数较少，可将微操作安排在机器周期末尾几个节拍上进行。如上面的执行周期和中断周期。

4.1 硬布线控制器设计

综上所述设计控制器核心思想是：根据指令操作码、目前的机器周期、节拍信号、机器状态条件，即可确定现在这个节拍下应该发出哪些"微命令"。

设计思路

硬布线控制器是是控制当中的一种，即用纯硬件的方式设计控制器。

设计思路：

$n$ 为操作码送到操作码译码器中
控制单元CU通过译码器连线中的哪一根输入信号有效来判断执行指令是哪一条指令。这样CU就得到了指令操作码。
$FE,IND,EX,INT$ $1$ 确定当前处于哪个机器周期。
事实上这四个触发器集成在CU内部。
接着还需要让CU判断出当前处于机器周期内的第几个节拍，即要给CU一个节拍信号。
$T_0,T_1\cdots$ $T_m$ $T_0$ ，即进入下一个机器周期。
$I/O$ 设备、主存等。

接着CU可以根据指令操作码、目前的机器周期、节拍信号、机器状态条件，即可确定现在这个节拍下应该发出哪些"微命令"。所以控制单元每个输出的控制信号对应一个微命令，也就是对应一个操作。

$C_1$ $(PC)\rightarrow MAR$ $PCout,MARin$ 上即可。接下来要解决的问题是什么情况下CU会发出对应的命令。

$T_0$ $(PC)\rightarrow MAR$ $C_1=FE·T_0$ 。之后可以得到这个门电路：

$T_0$ $FE$ $C_1$ $T_0=1\&\&FE=1$ $C_1$ $(PC)\rightarrow MAR$ 微操作所对应的微命令。

$(PC)\rightarrow MAR$ $M(MAR)\rightarrow MDR$ 。

$M(MAR)\rightarrow MDR$ 对应的微命令逻辑表达式：

F E \cdot T_{1} + I N D \cdot T_{1} (A D D + S T A + L D A + J M P + B A N) + E X \cdot T_{1} (A D D + L D A)

$\ge$ 是一个或门。

$FE·T_1$ $FE$ $T_1$ $T_1$ $M(MAR)\rightarrow MDR$ 微操作对应的命令。

$EX·T_1(ADD+LDA)$ $EX=1$ $(ADD+LDA)$ $T_1$ $M(MAR)\rightarrow MDR$ 微操作对应的命令。

设计方式

接下来要探讨的是如何得到与一个微操作所对应的电路，知道这个过程就能知道硬布线控制器如何设计。

其设计步骤可以分为四步：

分析每个阶段的微操作序列(取值、间址、执行、中断四个阶段)。确定哪些指令在什么阶段、在什么条件下会使用到的微操作。
$3$ 个节拍。
$3$ 个节拍完成整个机器周期内的所有微操作?
电路设计。确定每个微操作命令的逻辑表达式，并用电路实现。

第一步：分析每个阶段的微操作序列

取址周期(所有指令都一样)
$PC\rightarrow MAR$
$1\rightarrow R$
$M(MAR)\rightarrow MDR$
$MDR\rightarrow IR$
$OP(IR)\rightarrow ID$ $ID$ 是指令译码器的缩写，其实就是之前的操作码译码器。
$(PC+1)\rightarrow PC$
间址周期(所有的指令都一样)
$Ad(IR)\rightarrow MAR$
$1\rightarrow R$
$M(MAR)\rightarrow MDR$
$MDR\rightarrow Ad(IR)$ 。将形式地址替换为有效地址
$四$ 个有代表性的分析，其他类似)
1. CLA：clear ACC指令，ACC清零
  $0\rightarrow ACC$
2. LDA X：取数指令，把X所指内容取到ACC
  $AD(IR)\rightarrow MAAR$
  $1\rightarrow R$
  $M(MAR)\rightarrow MDR$
  $MDR\rightarrow AC$
3. JMP X：无条件转义指令
  $Ad(IR)\rightarrow PC$
4. BAN X：条件转义指令，当ACC为负时转移到X
  $A_0·Ad(IR)+\overline{A_0}·(PC)\rightarrow PC$
  $A_0$ $1$ 。

中断周期微操作不再分析，原理类似。

$T_0,T_1,T_2$ 。

第三步：安排微操作时序。将以上指令每个周期安排在三个节拍内完成。

安排微操作时序原则：

$MAR$ 。
$(PC)\rightarrow MAR,1\rightarrow R$ $MAR$ ，第二个指令控制对象是主存。所以这两个指令控制对象不同，可以安排在一个节拍内完成。
占用时间较短的微操作尽量安排在一个节拍内完成，并允许有先后顺序。因为CPU速度很快，因此一个时钟周期内就算两个指令有先后顺序，也可以几乎同时完成。

取址周期
$T_0$ $PC\rightarrow MAR$ $1\rightarrow R$
$T_1$ $M(MAR)\rightarrow MDR$ $(PC)+1\rightarrow PC$
$T_2$ $MDR\rightarrow IR$ $OP(IR)\rightarrow ID$
间址周期
$T_0$ $Ad(IR)\rightarrow MAR$ $1\rightarrow R$
$T_1$ $M(MAR)\rightarrow MDR$
$T_2$ $MDR\rightarrow Ad(IR)$
$M(MAR)\rightarrow MDR$ $MDR\rightarrow Ad(IR)$ 在一个节拍内完成。
执行周期
1. CLA：ACC清零
  $T_0$
  $T_1$
  $T_2:0\rightarrow ACC$
2. LDA X：取数指令
  $T_0$ $Ad(IR)\rightarrow MAR$ $1\rightarrow R$
  $T_1$ $M(MAR)\rightarrow MDR$
  $T_2$ $MDR\rightarrow ACC$
3. JMP X：无条件转移指令
  $T_0$
  $T_1$
  $T_2$ $Ad(IR)\rightarrow PC$
4. BAN X：条件转移
  $T_0$
  $T_1$
  $T_2$ $A_0·Ad(IR)+\overline{A_0}·(PC)\rightarrow PC$

第四步：电路设计。设计步骤：

$T_0$ $T_1$ $T_2$ 节拍内有可能用到的所有微操作。
写出微操作命令的最简表达式。
画出逻辑图

列出操作时间表
取址周期
$I$ $1\rightarrow IDX$ $\overline{I}$ $1\rightarrow EX$ ，即直接进入执行阶段。
间址周期
$\overline{IND}$ $\overline{IND}=0$ $1\rightarrow EX$
执行周期
写出微操作命令的最简表达式。
$M(MAR)\rightarrow MDR$ 操作全部罗列
$M(MAR)\rightarrow MDR$ 的逻辑表达式：
$F E \cdot T_{1} + I N D \cdot T_{1} (A D D + S T A + L D A + J M P + B A N) + E X \cdot T_{1} (A D D + L D A)$
可以化简为：
$T_{1} {F E + I N D (A D D + S T A + L D A + J M P + B A N) + E X (A D D + L D A)}$
$1$ $M(MAR)\rightarrow MDR$ 微操作。
画出逻辑图

设计硬布线控制器步骤总结：

分析每个阶段的微操作序列
选择CPU的控制方式
安排微操作时序
电路设计 (1)列出操作时间表 (2)写出微操作命令的最简表达式 (3)画出逻辑图

硬布线控制器特点：

指令越多，设计和实现就越复杂，因此一般用于RISC(精简指令集系统)。

如果扩充一条新的指令，则控制器的设计就需要大改，因此扩充指令较困难。

由于使用纯硬件实现控制，因此执行速度很快。微操作控制信号由组合逻辑电路即时产生。

4.2 微程序控制器的基本原理

用高级语言写的代码会被翻译成一系列对等的指令。而每条指令执行可以被细分为一个个微操作。可以把一个时序之内同时进行的微操作用一个微指令来指令

$a$ $1,2$ 。由一整个微指令序列就构成了一个微程序。

所以程序是由指令序列构成的。微程序是由微指令序列组成，每一种指令对应一个微程序。

要注意的是机器指令是对程序执行步骤的描述而微指令是对指令执行步骤的描述。

可以借鉴之前采用"存储程序"的思想，CPU出厂前将所有指令的"微程序"存入"控制器存储器"中。

注意：微命令与微操作一一对应。而微指令中可能包含多个微命令。

另外微程序和机器指令也是一一对应的，一种机器指令会对应一个微程序，而一个微程序有多个指令序列构成。所以可以说机器指令是对微指令功能的封装。

$n$ $m$ bit的顺序控制字段，指明下一条微指令的地址。

微程序控制器基本结构

CU控制单元内部引入控制寄存器(CM)。这个CM用于存放各指令对应的微程序，控制存储器可用只读存储器ROM构成，通常在CPU出厂时就把所有微程序写入。每一种机器指令会对应一个微程序，而一个微程序会与一系列微指令序列构成。这些微指令序列在CM中会顺序存放。

$CMAR$ $μPC$ ，微地址寄存器，接收微地址形成部件送来的微地址，为在CM中读取微指令作准备。

对于CMAR来说，同样也需要将内部地址送给地址译码器。其功能是将地址码转化为存储单元控制信号。

之后从CM中取出一条微指令，也需要放到CMDR中，别名叫μIR，用于存放从CM中取出的微指令，它的位数同微指令字长相等。

还需要一个微地址形成部件，它的作用是产生初始微地址和后继微地址，以保证微指令的连续执行。根据机器指令操作码部分来确定它所对应的微指令序列对应的首地址。

最后需要一个顺序逻辑，因为微指令序列不一定是顺序的执行。如果有中断发生，微指令序列执行顺序会发生变化。

所以执行一条指令过程是，首先把指令的操作码送给微地址形成部件，用来确定这条指令所对应的微指令序列的起始地址。接着根据顺序逻辑的标志信息确定接下来执行微指令的存放地址，将微指令地址放入CMAR中。之后经过地址译码器译码之后选中CMAR所指向的那条微指令。之后取出这条微指令将其放入CMDR中，而CMDR中包含微指令两个部分信息，第一部分用来描述微指令对应的控制信号，第二部分用于描述接下来要执行的微指令地址，称为下地址。所以执行完这条微指令后，需要把下地址信息送给顺序逻辑，之后顺序逻辑根据标志信息，再决定下一条微指令的存放地址。之后循环。

当前CU会发出什么信号是根据CMDR中的控制字段决定的。如果所有指令的取址周期、间址周期、中断周期所对应的微指令序列都一样，那么可以共享使用。基于这个原因在CM存储器中存储的微指令序列，通常来说取址周期所对应的微程序断只有一份，因为所有机器指令执行在取址阶段要做的微操作都是一样的。所以间址周期和中断周期也都是只存一份。只有执行周期所对应的微程序每个机器指令都是不一样的。

分析取数指令LAD X的执行流程：

首先进入取址周期
$0,1,2$ 三个微指令操作码。
$PC\rightarrow MAR$ $1\rightarrow R$
$M(MAR)\rightarrow MDR$
$T_2$ $MDR\rightarrow IR$
$2$ $3$ $3$ $13$ $13$ 这个地址信息，指令会直接进入执行周期。
$0$ $0$ ，而是中断周期内的一系列微指令序列。

考试常考点：

取址周期 $n$ $n+1$ 个。

$n$ $n$ $n$ $n+1$ 。z

这里没算间址周期和中断周期是因为一些早期的CPU、物联网设备的CPU可以不提供间接寻址和中断功能，因此这类CPU可以不包含间址周期、中断周期的微程序段。

注意：物理上取指周期、执行周期看起来像是两个微程序，但逻辑上应该把它们看作一个整体。因此，一条指令对应一个微程序的说法是正确的。故取址、间址、执行和中断四个周期组成的微程序段看作逻辑上的一个整体，即微程序。

指令周期：从主存取出并执行一条机器指令所需的时间。用于描述指令的执行速度。

微周期(微指令周期)：从控制器存储器取出一条微指令并执行相应微操作所需的时间。用于描述微指令执行速度。

微指令设计

如何根据一条微指令来发出相应的控制信号。通过之前的学习可以知道微命令与微操作是一一对应的，一个微命令对应一根输出线。并且有的微命令是可以并行执行的，因此一条微指令可以包含多个微命令。

引入两个概念：

相容性微命令：可以并行完成的微命令
互斥性微命令：不允许并行完成的微命令。

微指令的格式有三种：水平型微指令、垂直型微指令和混合型微指令。

水平型微指令
一条微指令能定义多个可并行的微命令。
操作控制字段较长，采用这种指令格式会导致指令的条数较少，因为一条指令可以完成多个操作。所以指令条数少，但每个指令较长，整体来看横向发展。
优点：微程序短，执行速度快;
缺点：微指令长，编写微程序较麻烦。
垂直型微指令
一条微指令只能定义一个微命令，由微操作码字段规定具体功能。
微操作码字段较短，要完成更多同样功能需要更多的指令，因为每条微指令只能完成一个微操作。所以指令条数多，但每个指令较短。
优点：微指令短、简单、规整，便于编写微程序;
缺点：微程序长，执行速度慢，工作效率低。
混合型指令
在垂直型的基础，上增加一些不太复杂的并行操作。
微指令较短，仍便于编写;微程序也不长，执行速度加快。

4.3 微指令的编码方式

重点探讨水平型微指令格式如何设计操作控制字段。即如何用若干个二进制信息表示一系列控制信号。

微指令的编码方式又称为微指令的控制方式，它是指如何对微指令的控制字段进行编码，以形成控制信号。编码的目标是在保证速度的情况下，尽量缩短微指令字长。

直接编码方式

$1$ 表示该控制信号有效。

$(PC)\rightarrow MAR$ $1\rightarrow R$ $1$ $0$ 即可。

优点：简单、直观，执行速度快，操作并行性好。

$n$ $n$ 位，造成控存容量极大。

字段直接编码

将微指令的控制字段分成若干"段"，每段经译码后发出控制信号。

微命令字段分段的原则：

互斥性微命令分在同一段内，相容性微命令分在不同段内。
每个小段中包含的信息位不能太多，否则将增加译码线路的复杂性和译码时间。
$3$ $7$ $000$ 表示不操作。

$(PC)\rightarrow MAR$ $1\rightarrow R$ 这两个微操作是可以并行执行的。所以需要将这两个微操作放到不同的段中，这两个微操作在与之相对应的段中会有一个特定的编码，这个编码经过译码器的编码后就会发出与这两个微操作相对应的控制信号。并且这两个微命令的控制信号是并行发出的。

$(PC)+1\rightarrow PC$ $(PC)\rightarrow MAR$ $(PC)+1\rightarrow PC$ $010$ 。所以对于这两个操作信号不可能同时由译码器发出。

使用这种编码方式可以有效的将微指令总体长度变短。

$33$ $5$ $7、3、12、5$ $6$ 个微命令，则操作控制字段至少有多少位?

$1$ $7$ $1$ $2^3=8$ $3$ $4$ $4,13,6,7$ $2,4,3,3$ $3+2+4+3+3=15$ $33$ 个位，所以显然字段直接编码比直接编码方式所需要的指令字段更少。

所以字段直接编码优点：可以缩短微指令字长。缺点：要通过译码电路后再发出微命令，因此比直接编码方式慢。

字段间接编码方式

一个字段的某些微命令需由另一个字段中的某些微命令来解释，由于不是靠字段直接译码发出的微命令，故称为字段间接编码，又称隐式编码。

$2$ 经过译码器译码之后，并不是直接发出这个字段所对应的控制信号，而是会把这个译码信号输送给下一级的译码器。经过下一级的译码器在经过一次处理后才发出最终的控制信号。

优点:：可进一步缩短微指令字长。

缺点：削弱了微指令的并行控制能力，故通常作为字段直接编码方式的一种辅助手段。

微指令地址形成方式

一个微地址由控制字段和下地址两个部分构成，上面介绍了控制字段的设计，接下来介绍下地址的形成方式。

微指令的下地址字段指出
微指令格式中设置一个下地址字段，由微指令的下地址字段直接指出后继微指令的地址，这种方式又称为断定方式。
根据机器指令的操作码形成
当机器指令取至指令寄存器后，微指令的地址由操作码经微地址形成部件形成。
增量计数法
$(PC)+1\rightarrow PC$ $(CMAR)+1\rightarrow CMAR$ ，用这种方式可以顺序找到下一条指令。
分支转移法
转移方式：指明判别条件；
转移地址：指明转移成功后的去向。
通过测试网络
即顺序逻辑会接受标志信息，根据这个标志信息再结合当前正在执行微指令的标志信息，来决定接下来应该执行微指令的存放地址。
由硬件直接产生微程序入口地址
第一条微指令地址会由专门硬件产生(用专门的硬件记录取指周期微程序首地址) 中断周期由硬件产生中断周期微程序首地址(用专门的硬件记录)

$32$ $2$ $4$ 条微指令组成，采用断定法(下地址字段法)确定下条微指令地址，则微指令中下地址字段的位数至少是多少位?

$4$ $2$ 条公共的取指令程序。所以总共需要存储

32 \times 4 + 2 = 130 条

$2^7=128$ $8$ $8$ 位。

4.4 微程序控制单元的设计

步骤和硬布线控制器设计思路类似。

设计步骤：

分析每个阶段的微操作序列
写出对应机器指令的微操作命令及节拍安排
- 写出每个周期所需要的微操作(参照硬布线)
- 补充微程序控制器特有的微操作：
  $Ad (CMDR)\rightarrow CMAR$ $OP(IR)\rightarrow 微地址形成部件\rightarrow CMAR$
  $Ad(CMDR)\rightarrow CMAR$
确定微指令格式
根据微操作个数决定采用何种编码方式，以确定微指令的操作控制字段的位数。根据CM中存储的微指令总数，确定微指令的顺序控制字段的位数。最后按操作控制字段位数和顺序控制字段位数就可确定微指令字长。
编写微指令码点
根据操作控制字段每-位代表的微操作命令，编写每- -条微指令的码点。

第一步，以取址周期为例：

$T_0$ $PC\rightarrow MAR$

$T_0$ $1\rightarrow R$

$T_1$ $M(MAR)\rightarrow MDR$

$T_1$ $(PC)+1\rightarrow PC$

$T_2$ $MDR\rightarrow IR$

$T_2$ $OP(IR)\rightarrow 微地址形成部件$

硬布线与微程序控制器设计对比：

唯一区别在最后对于硬布线控制器是把指令的操作码部分送给指令译码器ID，之后ID会发出与操作码相对应那根线的选通信号。

而对于微程序控制器来说只需要把操作码送给微地址形成部件，之后由微地址形成部件来指明这条指令在接下来的执行周期所对应的微程序的起始地址。

以上给出的三条操作指令并不完善，还需要考虑如何读出这三条微指令，及如何转入下一个机器周期。

$0$ $Ad(CMDR)\rightarrow CMAR$ 。这样一个微操作执行也需要消耗一个节拍。

$OP(IR)\rightarrow 微地址形成部件\rightarrow CMAR$ 。

所完整取指周期微程序控制器的节拍安排如下：

$5$ $3$ 个节拍，所以微程序控制器的速度比硬布线控制器更慢。

第二步：在第一步得到的微操作序列基础上，把可以并行的微操作安排在一个节拍内进行。

之后由于采用微程序控制器，需要加入几个特有的微操作：

在取址周期内
$Ad (CMDR)\rightarrow CMAR$
$OP(IR)\rightarrow 微地址形成部件\rightarrow CMAR$
执行周期内
$Ad (CMDR)\rightarrow CMAR$

第三步：需要确定微指令的格式

$1$ 。

接下来把这些微指令序列放到CM中即可。

4.5 微程序设计分类与两种设计方式对比

静态微程序设计和动态微程序设计：

静态设计
微程序写入CM中就无需改变，采用ROM
动态设计
通过改变微指令和微程序改变机器指令。
有利于仿真，采用EPROM。

毫微程序设计：微程序设计用微程序解释机器指令。而毫微程序设计用毫微程序解释微程序。

硬布线与微程序设计比较

对比项目	微程序控制器	硬布线控制器
工作原理	微操作控制信号以微程序的形式存放在控制存储器中，执行指令时读出即可	微操作控制信号由组合逻辑电路根据当前的指令码、状态和时序，即时产生
执行速度	慢	快
规整性	较规整	繁琐、不规整
应用场合	CISC CPU	RISC CPU
易扩展性	易扩充修改	困难

5. 指令流水线

指令流水线可以对指令的执行过程进行优化。

一条指令的执行过程可以分成多个阶段(或过程)。根据计算机的不同，具体的分法也不同。最简单划分方法是划分为三个阶段：取指阶段、分析阶段、执行阶段。

一条指令在不同的阶段所需要使用到的硬件部件是不一样的：

取指阶段：根据PC内容访问主存储器，取出一条指令送到IR中。
分析阶段：对指令操作码进行译码，按照给定的寻址方式和地址字段中的内容形成操作数的有效地址EA，并从有效地址EA中取出操作数。
执行阶段：根据操作码字段，完成指令规定的功能，即把运算结果写到通用寄存器或主存中。

特点是每个阶段用到的硬件不一样。

$3$ $t$ $n$ 条指令的执行时间：

顺序执行方式
一条指令三个阶段完成后，才会进入下一个阶段。
$T=n\times3t=3nt$ 。
传统冯诺依曼机采用顺序执行方式，又称串行执行方式。
优点：控制简单，硬件代价小。
缺点：执行指令的速度较慢，在任何时刻，处理机中只有条指令在执行，各功能部件的利用率很低。

引入指令流水线：

一次重叠执行方式
第二条指令第一个阶段和上一条指令的最后一个阶段重叠。
$T=3t+(n-1)\times2t=(1+2n)t$
$1/3$ ，各功能部件的利用率明显提高。
缺点：需要付出硬件上较大开销的代价，控制过程也比顺序执行复杂了。
二次重叠执行方式
$T=3t+(n-1)\times t=(2+n)t$
$2/3$ $3$ $4$ 条指令在执行。
$4$ $5$ $5$ 个阶段是比较常见的做法。

上图是指令执行过程图。

$t$ ，纵坐标是指令序列。这种图主要用于分析旨令执行过程以及影响流水线的因素。

还有另一种描述指令执行过程的图，时空图：

$t$ ，纵坐标表示不同的执行阶段。这种图主要用于分析流水线的性能。

大体上可以用吞吐率、加速比、效率三个指标评价流水线的性能。

吞吐率是指在单位时间内流水线所完成的任务数量，或是输出结果的数量。
对于指令流水线来说，吞吐率就是单位时间内能完成多少条指令。
$n$ $n$ $T_k$ ，则计算流水线吞吐率(TP) 的最基本的公式为：
$T P = \frac{n}{T_{k}}$
理想情况下，流水线的时空图如下：
$k$ $k·\Delta t$ $k\Delta t$ $\Delta t$ $n-1$ $(n-1)\Delta t$ $n$ $T_k=(k+n-1)\Delta t$ 。故流水线吞吐率为：
$T P = \frac{n}{(k + n - 1) Δ t}$
$n\rightarrow \infty$ $TP_{max}=\frac{1}{\Delta t}$ 。
$k$ $\Delta t$ $\Delta t=$ 一个时钟周期。
这里还需要补充装入时间和排空时间的概念：
装入时间：第一条指令从取指一直到结束所需要的时间。
排空时间：最后一条指令从执行到结束所需要的时间。
加速比：完成同样一批任务，不使用流水线所用的时间与使用流水线所用的时间之比。
$T_0$ $T_k$ $(S)$ 的基本公式为：
$S = \frac{T_{0}}{T_{k}}$
理想情况下，流水线的时空图如下：
$k\Delta t$ $n$ $T_0=nk\Delta t$ 。实际加速比是
$S = \frac{k n Δ t}{(k + n - 1) Δ t} = \frac{k n}{k + n - 1}$
$n\rightarrow\infty$ $S_{max}=k$ 。
效率：流水线的设备利用率称为流水线的效率。
$n$ $n$ $k$ 个流水段所围成的时空区总面积之比。
$\frac{红框面积}{蓝框面积}$
$(E)$ 的一般公式为
$E = \frac{n 个任务占用 k 时空区域有效面接}{n 个任务所用的时间与 k 个流水段所围成的时空区总面积} = \frac{T_{0}}{k T_{k}}$
$T_k$ $k$ $k$ 个阶段。
$n\rightarrow\infty$ $E_{max}=1$ 。即硬件几乎随时都在忙碌。所以引入流水线后硬件利用率大大提升。

5.1 影响指令流水线的因素

上面介绍指令流水线的时，各个阶段都是理想情况，这些导致不完美因素就是要探讨的内容。

为了方便讨论先引入五段式指令流水线：

$IF,ID,EX,M,WB$ 五个阶段。

IF阶段：指的式取指令阶段，控制器内部会有一个触发器叫IF。
ID阶段：指令译码阶段
EX阶段：指令执行阶段
M阶段：需要进行访存阶段
WB阶段：把最终运算结果写回到通用寄存器组

$MIPS$ 架构所提出的指令流水线，是世界上第一个精简指令集(RISC)系统。

总之在MIPS架构下一条指令执行会被划分为五个阶段，有的指令可能会跳过某些阶段(如访存阶段)。然而为了方便指令流水线安排，所有指令都会安排为五个这样的机器周期。所以在MIPS架构下一定都是五个机器周期。

另一个方面每个周期花费时间不一样。

$100ns$ 。所以在MIPS架构下包含的周期数相同都是五个机器周期，并且每个机器周期长度都相同，这样可以方便安排指令流水线。

$200ns$ $80ns$ $200ns$ 时候流出，就需要在各个阶段之间添加暂存寄存器。

上面蓝色方框的部件就是暂存寄存器其称为缓冲寄存器，流水线每一个功能段部件后面都要有一个缓冲寄存器，或称为锁存器，其作用是保存本流水段的执行结果，提供给下一流水段使用。

另外需要注意的是上图CPU中的Cache分为两个模块Instruction Cache(存放指令)和Data Cache(存放数据)。指令和数据用两个独立的Cache模块存放是很有意义的，可以使第一阶段和第四阶段所需要使用的硬件部件可以并行工作。

$A,B$ $A,B$ $Imm$ ，是用来存放立即数的。第三个阶段ALU计算后会将输出的结果放到锁存器当中，这个运算结果可能会写入主存或者直接写入寄存器。如果直接写入寄存器第五个阶段写回阶段会将运算结果写回到通用寄存器中。

第二个阶段有可能对某个通用寄存器进行读操作，最后一个阶段有可能会把某个数据写回到通用寄存器。这两个阶段对寄存器的读和写两个操作可能造成一些问题，即影响流水线的因素。

因素可以分为三类：

结构相关(资源冲突)
数据相关(数据冲突)
控制相关(控制冲突)

结构相关因素

又叫资源冲突。由于多条指令在同一时刻争用同一资源而形成的冲突称为结构相关。

$Load$ $Instr3$ $Instr3$ 指令的第二个阶段读是取寄存器，如果两个指令访问是一个寄存器就会产生冲突。

解决方法：

后一相关指令暂停一周期
$+$ 指令存储器
即如果将指令和数据分别放到两个不同的存储器中，那么第一阶段取指阶段和第四个阶段访存阶段所需要访问的寄存器一定是不相同的。

数据相关

又叫数据冲突。数据相关指在一个程序中，存在必须等前一条指令执行完才能执行后一条指令的情况，则这两条指令即为数据相关。

$r2+r3$ $r1$ $r1$ $r1$ 中地数据，所以会失败。而最后一条指令在第一条指令完成后进行，所以不会失败。

解决方法：

把遇到数据相关的指令及其后续指令都暂停一至几个时钟周期，直到数据相关问题消失后再继续执行。可分为硬件阻塞(stall)和软插入"NOP"两种方法。
采用硬件阻塞：
如果两个指令之间存在数据冲突使用硬件阻塞方式，硬件系统会添加如上图所示地"气泡"。将第二条指令执行时间往后拖三个节拍。此时后面指令就不会造成数据冲突。
同时也可以用软件NOP指令地方式解决。
执行指令时，编译器发现两个指令之间会有数据冲突关系，那么编译器会在这两条指令中间插入三条空指令。每一个空指令的执行也会经过五个周期。之后的指令就不会造成数据冲突问题。
数据旁路技术
又叫做转发机制。其大致思路是在第一条指令ALU进行加法运算结果就已经出来了，此时会连出一个数据旁路，让结果直接送回ALU的其中一个输入端，作为下一条指令的输入。这样就不需要等待上一条指令的写回操作。
编译优化
可以通过编译器调整指令顺序来解决数据相关。
第一条指令结果会被后面指令使用到，如果第五条指令的后面还有其他指令，而这些其他指令又不需要前面几条指令的运算结果，此时就可以将后面几条指令安排在第一条指令之后运行。这样当第二个指令执行时，系统其实已经将第一条指令五个周期全部执行完毕，所以就不会产生数据冲突了。

控制相关

又叫控制冲突。当流水线遇到转移指令和其他改变PC值的指令而造成断流时，会引起控制相关。

$12$ $16$ $1000$ $PC\rightarrow1000$ $16,20,24$ 的指令是不应该执行的，这就是控制相关问题。出来转移类指令会造成断流，CALL(函数调用)、函数返回、中断程序等都会造成程序的断流，都会产生控制相关的问题。

解决方法：

转移指令分支预测。与两种预测方式：简单预测(永远猜true或false)、动态预测(根据历史情况动态调整)。
预取转移成功和不成功两个控制流方向上的目标指令
由于条件转移指令，有可能导致程序执行流往两个方向走，那么将两个方向所用到的指令都预取出来。采用这种方法可能会改变硬件，如多增加两个寄存器等。
加快和提前形成条件码。
提高转移方向的猜准率
是对第一种方法优化。

5.2 指令流水线的分类

根据流水线使用的级别的不同，流水线可分为部件功能级流水线、处理机级流水线和处理机间流水线。

$4$ 个子过程。
指令每个阶段所用到的部件不一样，部件级的流水线是把某一阶段用到的功能部件再进一步的细分。如果连续多个同样功能，细分部件可以流水线处理这多个同样功能。
$5$ 个子过程。
处理机间流水是一种宏流水，其中每一个处理机完成某一专门任务，各个处理机所得到的结果需存放在与下一个处理机所共享的存储器中。
让多个CPU，分任务处理。

按流水线可以完成的功能，流水线可分为单功能流水线和多功能流水线。

单功能流水线是指只能实现一种固定的专门功能的流水线。
多功能流水线指通过各段间的不同连接方式可以同时或不同时地实现多种功能的流水线。如指令流水线。

按同一时间内各段之间的连接方式，流水线可分为静态流水线和动态流水线。

静态流水线指在同一时间内，流水线的各段只能按同一种功能的连接方式工作。
动态流水线指在同一时间内，当某些段正在实现某种运算时，另-些段却正在进行另一种运算。这样对提高流水线的效率很有好处，但会使流水线控制变得很复杂。

按流水线的各个功能段之间是否有反馈信号，流水线可分为线性流水线与非线性流水线。

线性流水线中，从输入到输出，每个功能段只允许经过一次，不存在反馈回路。
非线性流水线存在反馈回路，从输入到输出过程中，某些功能段将数次通过流水线，这种流水线适合进行线性递归的运算。
如一个ALU计算乘法，但ALU本身不支持乘法，所以只能进行多次加法，并且运算输出端会直接连接到另一个输入端。

5.3 流水线的多发技术

超标量技术
每个时钟周期内可并发多条独立指令，即同一时刻同时执行多条指令，是一种空分技术。要想不出现冲突问题，就要配置多个功能部件。并且不能调整指令的执行顺序。
通过编译优化技术，把可并行执行的指令搭配起来。
由于指令的排列是由编译器确定的，因此编译器在得到编译序列的时候要考虑到哪些指令可以并行执行。可以将其搭配在一起。因此对编译优化要求很高。
超流水技术
在一个机器周期内再分段。一个机器周期内一个功能部件使用多次，是一种时分复用技术。
$3$ 倍。
超长指令字技术
由编译程序挖掘出指令间潜在的并行性，将多条能并行操作的指令组合成一条超长指令，具有多个操作码字段的超长指令字(可达几百位)
显然多种操作想要同时进行就必须提供多个相互独立的部件。

5.4 五段式指令流水线

前面影响指令流水线的因素介绍过五段式指令流水线基本概念。

这里会介绍常见五类指令：运算类指令、LOAD指令、STORE指令、条件转移指令、无条件转移指令详细分析这五类指令如何根据五个功能段完成相应的工作。

运算类指令

运算类指令在不同阶段工作：

指令举例：

功能	汇编格式	具体描述
加法指令(两个寄存器相加)	ADD Rs,Rd	$+$ $\rightarrow$ Rd
加法指令(寄存器与立即数相加)	ADD #996,Rd	$+$ $\rightarrow$ Rd
算术左移指令	SHL Rd	$<<<2\rightarrow$ Rd

上面指令在五个阶段执行如下：

取指阶段(IF)
根据PC从指令Cache中取指令至IF段的锁存器中
译码阶段(ID)
$A,B,Imm$ $Imm$ 是存放立即数的。
执行阶段(EX)
ALU算术逻辑单元根据上个阶段得到得操作数进行运算。运算结果放入EX阶段锁存器中。
访存(M)
在精简系统指令集(RISC)中，运算阶段不需要进行访存，即在这一阶段是空阶段。但是时间仍然需要消耗。
写回阶段(WB)
将执行阶段锁存器中的值放到第四阶段锁存器中，写回阶段会将锁存器中的内容写回到控制器中。

LOAD指令

功能	汇编格式	具体描述
将指定地址中的数据放到某个寄存器中	LOAD Rd,996(Rs)	$+$ $\rightarrow$ Rd

上面指令在五个阶段执行如下：

取指阶段(IF)
根据PC从指令Cache中取指令至IF段的锁存器中
译码阶段(ID)
$RS$ $A$ $Imm$ 锁存器中
执行阶段(EX)
将偏移量和基址相加，相加后的结果放入EX段的锁存器中，锁存器中的值就是有效地址EA。
访存阶段(M)
根据刚才锁存器中的有效地址EA从数据Cache中取数并放入访存阶段的锁存器中
写回阶段(WB)
将上一阶段锁存器中的值写回到目的寄存器Rd中。

为了保证流水线的流畅工作，通常访问主存时候，大概率都能在Cache中找到想要的数据。

通常在RISC处理器只有取数指令LOAD和存数指令STORE才能访问主存。

STORE指令

功能	汇编格式	具体描述
寄存中的值存放会回主存中	STORE Rs,996(Rd)	$\rightarrow$ $+$ (Rd))

上面指令在五个阶段执行如下：

取指阶段(IF)
根据PC从指令Cache中取指令至IF段的锁存器中
译码阶段(ID)
$A$ $Imm$ $B$ 锁存器中
执行阶段(EX)
$B$ $Store$ 中。
访存阶段(M)
根据有效地址EA将被存的数据放到数据Cache中。随后Cache回同步到主存。
写回阶段(WB)
空阶段

条件转移指令

功能	汇编格式	具体描述
两个寄存器值相等就需要进行转移	beq Rs,Rt,#偏移量	$==$ $+$ $+$ $\times$ $\rightarrow$ $+$ $\rightarrow$ PC
两个寄存器值不相等就需要转移	bne Rs,Rt,#偏移量	$!=$ $+$ $+$ $\times$ $\rightarrow$ $+$ $\rightarrow$ PC

上面指令在五个阶段执行如下：

取指阶段(IF)
根据PC从指令Cache中取指令至IF段的锁存器中
译码阶段(ID)
$A,B$ $Imm$ 锁存器中。
执行阶段(EX)
通过ALU计算将比较结果放入输出端锁存器中
访存阶段(M)
将目标PC值写回PC
很多教材把写回PC的功能段称为"WrPC段"其耗时比M段更短，可安排在M段时间内完成。
写回阶段(WB)
空阶段。这一阶段通常是将值写回寄存器。所以修改PC值不会在这里写回。

无条件转移指令

功能	汇编格式	具体描述
根据下一条指令的位置转移到指定位置	jmp #偏移量(补码表示)	$+$ $+$ $\times$ $\rightarrow$ PC

上面指令在五个阶段执行如下：

取指阶段(IF)
根据PC从指令Cache中取指令至IF段的锁存器中
译码阶段(ID)
$Imm$ 锁存器中
执行阶段(EX)
这一阶段用不到ALU算术逻辑单元。而是回直接根据偏移量将目标的PC值直接写回到PC寄存器中。
"WrPC段"耗时比EX段更短，可安排在EX段时间内完成。WrPC段越早完成，就越能避免控制冲突。当然也有的地方会在WB段时间内才修改PC的值。
访存阶段(M)
空阶段
写回阶段(WB)
空阶段

$x=a+b$ $x、a$ $b$ $int$ $[x]、[a]和[b]$ 。该语句对应的指令序列及其在指令流中的执行过程如下图所示。

$4$ $I3$ $ID$ $I4$ $IF$ 段被阻塞的原因各是什么

$I3$ $I1$ $I2$ $I2$ 取数指令完成后才能进行编码阶段(ID)。
$I4$ $IF$ $I3$ $IF$ 段锁存器的内容。

6. 多处理器系统

6.1 SISD、SIMD、MIMD的基本概念

基于指令流的数量和数据流的数量，对计算机体系结构分为SISD、SIMD、MISD和MIMD四类。常规的单处理器属于SISD,而常规的多处理器属于MIMD。

单指令流单数据流(SISD)结构
SISD是传统的串行计算机结构，这种计算机通常仅包含一个处理器和一个存储器，处理器在一段时间内仅执行一条指令，按指令流规定的顺序串行执行指令流中的若干条指令。为了提高速度，有些SISD计算机采用流水线的方式，因此，SISD 处理器有时会设置多个功能部件，并采用多模块交叉方式组织存储器。前面介绍的内容多属于SISD结构。
所以其特点是各指令序列只能并发、不能并行，每条指令处理一两个数据。
这总系统不支持数据级并行技术。即在同一时刻只能处理一两个特定数据，不可能并行处理很多数据。
若要提升效率可以引入指令流水线，并且需设置多个功能部件，采用多模块交叉存储器。
单指令流多数据流(SIMD)结构
SIMD是指一个指令流同时对多个数据流进行处理，一般称为数据级并行技术。这种结构的计算机通常由一个指令控制部件、多个处理单元组成。每个处理单元虽然都执行的是同一条指令，但每个单元都有自己的地址寄存器，这样每个单元都有不同的数据地址，因此，不同处理单元执行的同一条指令所处理的数据是不同的。一个顺序应用程序编译后，可能按SISD组织并运行于串行硬件上，也可能按SIMD组织并运行于并行硬件上。
$16$ $16$ 个ALU中同时运算，则仅需一次运算时间就能完成运算。SIMD在使用case或switch语句时效率最低，此时每个执行单元必须根据不同的数据执行不同的操作。
其特点是各指令序列只能并发、不能并行，但每条指令可同时处理很多个具有相同特征的数据。
该系统是一种数据级的并行技术。
多指令流单数据流(MISD)结构
MISD是指同时执行多条指令，处理同一个数据，实际上不存在这样的计算机。
多指令流多数据流(MIMD)结构
其特点是各指令序列并行执行，分别处理多个不同的数据。是一种线程级并行(每个内核可以运行各自的进程，多个线程并行执行)、甚至是线程级以上并行(进程级并行)技术。
进一步分类可以分为：多处理器系统(共享内存多处理器)和多计算机系统
- 多处理器系统
  $LOAD/STORE$ 指令，访问同一个主存储器，可以通过主存相互传送数据。
  硬件之间多个处理器共享单一的物理地址空间。
- 多计算机系统
  $LOAD/STORE$ 指令直接访问对方的存储器，只能通过"消息传递"相互传送数据。
  每台计算机拥有各自的私有存储器，物理地址空间相互独立。
向量处理机(SIMD思想的进阶应用)
其特点是条指令的处理对象是"向量"。擅长对向量型数据并行计算、浮点数运算，常被用于超级计算机中，处理科学研究中巨大运算量。
其硬件在成采用多个处理单元，多组"向量寄存器"。主存储器应采用"多个端口同时读取"的交叉多模块存储器。主存储器大小限定了机器的解题规模，因此要有大容量的、集中式的主存储器。

总结：

6.2 硬件多线程概念

先来看一下不支持多线程的普通处理器：

$A$ $B$ $B$ $A$ $B$ $A$ $A$ $B$ $A$ $A$ 的信息进行恢复。这个保存和恢复过程给线程切换带来了不小的代价。

再看可以支持硬件多线程的处理器：

$A$ $B$ 的同时存储，这一切换时候就不需要把内容数据保存到主存中。

接着看三种硬件多线程实现方式：

功能	细粒度多线程	粗粒度多线程	同时多线程(SMT)
指令发射	轮流发射各线程的指令 (每个时钟周期发射一个线程)	连续几个时钟周期，都发射同一线程的指令序列当流水阻塞时，切换另一个线程	一个时钟周期内，同时发射多个线程的指令
线程切换频率	每个时钟周期切换一次线程	只有流水线阻塞时才切换一次线程	NULL
线程切换代价	低	高，需要重载流水线	NULL
并行性	指令级并行，线程间不并行	指令级并行，线程间不并行	指令级并行，线程级并行

六. 总线

总线常常分为：地址总线、数据总线和控制总线。

地址总线可以给硬件发送地址信息。数据总线可以传输数据。控制总线可以给部件发送控制信号。

一个总线可以并行传递很多数据是因为每个总线中可能包含多根信号线。

$4$ $32bit$ $32$ 根信号线。同时一时刻只能有一个部件通过数据总线发送数据，但是可以有多个部件接受数据。

1. 总线的概述

总线是一组能为多个部件分时共享的公共信息传送线路。

共享是指总线上可以挂接多个部件，各个部件之间互相交换的信息都可以通过这组线路分时共享。

分时是指同一时刻只允许有一个部件向总线发送信息，如果系统中有多个部件，则它们只能分时地向总线发送信息。

$I/O$ 设备和主机之间连接的灵活性问题，计算机的结构从分散连接发展为总线连接，即每增加一个外部设备只需要将外部设备连接到总线上即可。

当设计总线的时候需要关注以下特性：

机械特性：尺寸、形状、管脚数、排列顺序
电气特性：传输方向和有效的电平范围
传输方向是指，CPU可以通过地址总线给主存指明此时要读写的地址。显然这个地址总线传输方向只能是由CPU传向主存。对于数据总线来说CPU要往主存中写数据都是通过数据总线传输，所以对于数据总线来说方向是双向的。
有效电平范围：即高低电平在什么样范围内有效。
功能特性：每根传输线的功能(地址、数据、控制)
时间特性：信号的时序关系

总线数据传输格式可以分为串行总线和并行总线。

串行总线
$A$ $B$ 传送信息。
优点：只需要一条传输线，成本低廉，广泛应用于长距离传输；应用于计算机内部时，可以节省布线空间。
缺点：在数据发送和接收的时候要进行拆卸和装配，要考虑串行与并行转换的问题。
并行总线
$A$ $B$ 发送多个比特的数据。
优点：总线的逻辑时序比较简单，电路实现起来比较容易。
缺点：信号线数量多，占用更多的布线空间；远距离传输成本高昂；由于工作频率较高时，并行的信号线之间会产生严重干扰，对每条线等长的要求也越高，所以无法持续提升工作频率。

显然CPU与主存之间传送数据的总线式并行总线。串行规范常常用于USB。由于各个信号线之间的干扰问题，在发送数据的时候并行总线并不一定比串行要快。

按总线功能(连接的部件)可以分为三类：片内总线、系统总线、通信总线。

片内总线
片内总线是芯片内部的总线。它是CPU芯片内部寄存器与寄存器之间、寄存器与ALU之间的公共连接线。
系统总线
$I/O$ 接口)之间相互连接的总线。
$3$ 类：数据总线、地址总线和控制总线。这里需要重点了解三种总线数据传输方向及每一种总线应该包含多少根信息线的问题。
数据总线：传输各功能部件之间的数据信息，包括指令和操作数。其位数(总线的根数)与机器字长、存储字长有关。如果数据总线的宽度和机器字长一致，此时CPU可以进行一次数据读入就可以直接取得数据。信息传递方向是双向的。
$I/O$ $I/O$ 设备与主存采用统一编址的策略时，设备数量会影响总线的宽度(根数)。信息传递方向是单向的。
控制总线：传输控制信息。内部的一根控制线可以传输一个信号。对于一根控制线来说，控制信号的传输方向是单向的。对于整个控制总线来说，有出：CPU送出的控制命令。有入：主存(或外设)返回CPU的反馈信号。
通信总线
通信总线是用于迁算机系统之间或计算机系统与其他系统(如远程通信设备、测试设备)之间信息传送的总线，通信总线也称为外部总线。如网线。

注意：数据通路表示的是数据流经的路径。而数据总线是承载的媒介。

按时序控制方式可以分为两类：同步总线、异步总线

同步总线
异步总线

本章重点探讨系统总线，系统总线经典结构有三种：单总线结构、双总线结构、三总线结构。

单总线结构
$I/O$ 设备等都是连在同一组系统总线上。
这里的系统总线包含数据总线地址总线和控制总线。
优点：结构简单，成本低，易于接入新的设备。
$I/O$ 设备读取很慢，CPU执行速度很快，显然这种连接在同一个系统总线方式不科学。
双总线结构
$I/O$ $I/O$ 总线上。
$I/O$ 设备进行统一管理。通道也需要运行管理相关的程序，而处理通道程序放在主存中。所以通道也可以通过主存总线从主存取出数据。
这里的主存总线支持突发(猝发)传送：即送出一个地址，收到多个地址连续的数据。正常来说CPU每指明一个地址，可以从主存当中读出一个字的信息，但是由于主存当中信息很多时候都是需要被连续访问(如指令序列)，显然CPU指明地址后如果能从主存当中连续读出多个字的数据，这样系统的效率可能更高。
$I/O$ $I/O$ 总线分离。
缺点：需要增加通道等硬件设备。
三总线结构
$I/O$ 总线与CPU连接。
$I/O$ $I/O$ 总线与慢速的外设进行交互，慢速外设可以更快相应CPU发出的命令。
$I/O$ 设备的性能，使其更快地响应命令，提高系统吞吐量。
缺点：系统工作效率较低。原因在于这三个总线同一时间只能有一个总线进行工作。
四总线结构
上面四个总线中，CPU总线最快；其次是系统总线和高速总线；最慢的是扩充总线。所以越靠近CPU的总线速度越快。
由于不同总线之间有速度的差异，因此需要增加一个桥接器部件。桥接器作用是用于连接不同的总线，具有数据缓冲、转换和控制功能。

2. 评价总线性能的指标

评价总线性能指标有八种：总线的传输周期(总线周期)、总线时钟周期、总线的工作频率、总线的时钟频率、总线宽度、总线带宽、总线复用、信号线数。

总线传输周期(总线周期)
一次总线操作所需的时间(包括申请阶段、寻址阶段、传输阶段和结束阶段)，通常由若干个总线时钟周期构成。有的时候，一个总线周期就是一个总线时钟周期。还有的时候，一个总线时钟周期可包含多个总线周期。
其中申请阶段要做的是总线仲裁，决定是否把总线分配给某个设备使用。寻址阶段是两个设备通过总线进行数据的交互，主设备会通过地址总线将它要读写的地址单元传递给从设备。传输阶段是通过数据总线往从设备中写入数据或读出数据。结束阶段会释放总线的使用权。
$32bit$ $32bit$ 的数据。
总线时钟周期
即机器的时钟周期。计算机有一个统一的时钟，以控制整个计算机的各个部件，总线也要受此时钟的控制。现在的计算机中，总线时钟周期也有可能由桥接器提供。
总线周期与时钟周期的关系可以是一对一、一对多、多对多。
总线的工作频率
$=N$ $=\frac{时钟频率}{N}$ 。
实际上指一秒内传送几次数据。
总线的时钟频率
$T$ $\frac{1}{T}$ 。
实际上指一秒内有多少个时钟周期。
总线的宽度
$32$ $32$ 位(bit)总线。
总线带宽
$/$ $(B/s)$ 表示。
总线复用
总线复用是指一种信号线在不同的时间传输不同的信息。可以使用较少的线传输更多的信息，从而节省了空间和成本。
采用这种复用技术，传递地址信息和数据信息时需要两个总线周期，需要两次数据的传送。所以虽然节约成本但是速度有所下降。
信号线数
$3$ $32$ $64$ $100$ $=32+64+100=196$

通过上面概念可以得到总线带宽公式

总 线 带 宽 = 总 线 工 作 频 率 \times 总 线 宽 度 (b i t / s) = 总 线 工 作 频 率 \times (总 线 宽 度 / 8) (B / s)

由于总线工作频率和总线周期之间是倒数关系，所以

总 线 带 宽 = \frac{总 线 宽 度}{总 线 周 期} (b i t / s) = \frac{总 线 宽 度 / 8}{总 线 周 期} (B / s)

注：总线带宽是指总线本身所能达到的最高传输速率。在计算实际的有效数据传输率时，要用实际传输的数据量除以耗时(校验位等)。

$/$ $32$ $66$ MHz，每个时钟周期传送两次数据(上升沿和下降沿各传送一次数据)。

该总线的最大数据传输率(总线带宽)是多少?
$=2\times66$ $132$ MHz
$=32bit=4$ B
$=$ $\times$ $=132\times4$ $/$ $=528$ $/$ s
$128$ 位数据所需要的时间至少是多少?
$1$ $128$ $4$ $2$ $=1/66$ $\approx15$ ns
$=(1+2)\times15$ $=45$ ns

$总线带宽=总线工作频率\times总线宽度(bit/s)$ 联系之前讲过串行与并行总线可知并行总线中为了保证数据的正确传输通常并行总线的工作频率不能太高，因为有信号干扰。而串行中线没有数据干扰，所以工作频率可以很高。所以两种线速度情况有以下两种：

工作频率相同时，串行总线传输速度比并行总线慢。
并行总线的工作频率无法持续提高，而串行总线可以通过不断提高工作频率来提高传输速度，最终超过并行总线。

3. 总线的操作和定时

总线同一时刻只能提供给一组设备使用。当一个设备获得总线控制权后，就可以利用总线对某一个从设备发出一定的命令，比如读写数据等。这对主设备和从设备之间怎么用电信号进行数据交流和时序安排就是这一节探讨的内容。

用总线传一次数据，即总线周期需要四个阶段：

申请分配阶段：由需要使用总线的主模块(或主设备)提出申请，经总线仲裁机构决定将下一传输周期的总线使用权授予某一申请者。也可将此阶段细分为传输请求和总线仲裁两个阶段。
寻址阶段：获得使用权的主模块通过总线发出本次要访问的从模块的地址及有关命令，启动参与本次传输的从模块。
传输阶段：主模块和从模块进行数据交换，可单向或双向进行数据传送。
结束阶段：主模块的有关信息均从系统总线上撤除，让出总线使用权。

而总线定时指的是总线在双方交换数据的过程中需要时间上配合关系的控制，这种控制称为总线定时，它的实质是一种协议或规则。即主模块与从模块在总线周期内进行四个阶段需要时间上的配合进行协调工作，如何进行它们在时间上有条不紊的配合这就是总线定时要探讨的问题。事实上总线定时就是要指定某一种协议或规则让数据的放松方和接受方都能按照统一规则进行数据交互。

总线定时方案(协议)有四种：同步通信(同步定时方式)、异步通信(异步定时方式)、半同步通信、分离式通信。

同步定时方式(读命令)
总线控制器采用一个统一的时钟信号来协调发送和接收双方的传送定时关系。
$T_1,T_2,T_3,T_4$ 四个阶段
1. $T1$ 时刻的上升沿给出地址信息
2. $T2$ $T3$ 的上升沿来之前将CPU所需的数据送到数据总线上。
3. $T3$ 时钟周期内，将数据线上的信息传送到其内部寄存器中。
4. $T4$ 的上升沿撤销读命令，输入设备不再向数据总线上传送数据，撤销它对数据总线的驱动。
$T3$ 阶段给不出数据，这种同步定时方式就会出现问题。
所以同步定时方式特点是由若干个时钟产生相等的时间间隔，每个间隔构成一个总线周期。在一个总线周期中，发送方和接收方可进行一次数据传送。因为采用统一的时钟，每个部件或设备发送或接收信息都在固定的总线传送周期中，一个总线的传送周期结束，下一个总线传送周期开始。
优点：传送速度快，具有较高的传输速率;总线控制逻辑简单。
缺点：主从设备属于强制性同步；不能及时进行数据通信的有效性检验，可靠性较差。
因此同步通信方式适用于总线长度较短及总线所接部件的存取时间比较接近的系统。
异步通信方式
在异步定时方式中，没有统一的时钟，也没有固定的时间间隔，完全依靠传送双方相互制约的"握手"信号来实现定时控制。
主设备提出交换信息的"请求"信号，经接口传送到从设备；从设备接到主设备的请求后，通过接口向主设备发出"回答"信号。
可以根据请求和回答信号的撤销是否互锁，进一步细分为以下三类
1. 不互锁方式
  当主设备获得主控权之后会发出请求信号(地址信息，读命令)后，不必等到接到从设备的"回答"信，而是经过一段时间便撤销请求信号。
  而从设备在接受到"请求"信号后，发出"回答"信号，并经过一段时间，自动撤销"回答"信号。双方不存在互锁关系。
  可以看出这种方式信号的撤销不存在相互制约的关系。
2. 半互锁方式
  主设备发出"请求"信号后，必须待接到从设备的"回答"信号后，才撤销"请求"信号，有互锁的关系。
  而从设备在接到"请求"信号后，发出"回答"信号，但不必等待获知主设备的"请求"信号已经撤销，而是隔一段时间后自动撤销回答"信号"，不存在互锁关系。
  所以请求信号的撤销动作会收到回答信号的制约，但是回答信号的撤销动作并不会受到请求信号的制约，因此这种方式称为半互锁方式。
3. 全互锁方式
  主设备发出"请求"信号后，必须待从设备"回答"后，才撤销"请求"信号。
  从设备发出"回答"信号，必须待获知主设备"请求"信号已撤销后，再撤销其"回答"信号。双方存在互锁关系。
显然第一种不互锁方式速度最快，可靠性最差。第三种全互锁方式最可靠，但速度最慢。
这种异步定时方式优点是总线周期长度可变，能保证两个工作速度相差很大的部件或设备之间可靠地进行信息交换，目动适应时间的配合。
缺点：比同步控制方式稍复杂一些，由于需要等待回应，所以速度比同步定时方式慢。
半同步通信
$\overline{WAIT}$
$\overline{WAIT}$ $T1$ $T2$ $T2$ $\overline{WAIT}$ $T_w$ $T_w$ $T3$ $T4$ 节拍主设备会撤销读命令和地址信息。这样就完成一个总线传输工作。
可以看出之前的同步定时方式每个总线传输周期都是定长的，是四个时钟周期。但是这种半同步通信结合异步通信方式优点，增加一个等待反馈信号，这样总线控制器可以根据这个反馈信号来动态调节传输周期种包含的时钟周期数。
分离式通信方式
具有上述三种通信方式共同点。结合刚才的例子，主设备要从从设备读出一个数据，那么主设备获得总线控制权后首先会发出地址和读命令，接下来从设备接收到命令后需要准备数据，数据准备好后才会通过数据总线给主设备发送数据。所以整个数据传输过程有三步：
1. 主模块发地址、命令
2. 从模块准备数据
3. 从模块向主模块发数据
这三个过程当中第一个过程需要使用到总线，第二个过程准备数据所以不需要使用总线。但这个时间段内这对主从设备依然会占据总线的使用权。最后一个阶段发送数据需要用到总线。所以优化的阶段是第二个阶段，当慢速的从设备在准备数据的时候，总线是空闲状态。所以分离式通信思想就是把总线的传输周期分离为两个独立的子周期：
$1$ ：主模块申请占用总线，使用完后放弃总线的使用权。当主设备申请发出请求信号后会立即放弃总线使用权。
$2$ ：从模块申请占用总线，将各种信息送至总线上。当从设备准备好数据后会主打申请占用主线，将信息传送到主线上。
所以这种分离式通信可以充分利用第二阶段准备数据时间，这个阶段把主线的使用权分配给其他设备使用，这样就能让总线传输效率更高。
这种方式特点：
1. 各模块均有权申请占用总线
2. 采用同步方式通信，不等对方回答
3. 各模块准备数据时，不占用总线
4. 总线利用率提高

$/$ 输出系统

$I/O$ 设备可以统称为外部设备。

在总线那一章中介绍过单总线结构：

$I/O$ $I/O$ 控制器、设备控制器，负责协调主机与外部设备之间的数据传输，这个控制器就是一块芯片，会被集成在主板上。

$I/O$ $I/O$ $I/O$ $I/O$ 控制器也不一样。

$I/O$ $IO$ $SATA$ $3.0$ $I/O$ 接口等。

$I/O$ 接口与外设进行交互的：

$I/O$ 接口内的功能部件有数据寄存器、控制寄存器和状态寄存器。

数据寄存器：存放主机要输出到外设数据，或者外设要输入回主机的数据。

控制寄存器：这个寄存器中存储的内容可以直接反映某一个外设具体要做什么动作，如键盘灯亮灭。

状态寄存器：反映了当前外设状态，比如说这个外设是否处于忙碌状态，是否损坏灯。CPU可以根据状态寄存器内部的标志位判断。

$I/O$ 控制方式

有以下代码：


xxxxxxxxxx
6
1
int main(void){
2
    char i;
3
    scanf("&C",&i);
4
    printf("i = %c\n",i);
5
    return 0 ;
6
}

scanf("&C",&i) $I/O$ 接口发出读命令，同时可以通过地址总线来指明要读的是哪个设备，地址总线还有一个作用是可以用于指明此次要从这个设备读入的数据应该放在哪一个寄存器。如果当前已经输入一个字符，那判断该字符是否输入方法有以下几种：

程序查询方式
$I/O$ 控制器中的"状态寄存器"，检测到状态为"已完成"之后，再从数据寄存器取出输入数据。
如果状态寄存器现实已经完成，此字符数据会放在数据寄存器中，CPU可以通过数据总线取走数据寄存器中的值。
$I/O$ 设备数据时，CPU不能去做其他事情，而是要不断检查状态寄存器。
程序中断方式
$I/O$ $I/O$ $I/O$ 控制器向CPU发出中断请求，CPU响应中断请求，并取走输入数据。

$\rightarrow I/O$ $\rightarrow$ $\rightarrow$ $\rightarrow$ $i$ 的对应位置)。

$I/O$ 设备，如磁盘，没准备好一个字就给CPU发送一次中断请求，会导致CPU接收到中断请求频率变高，每次接收到中断请求都会执行中断程序，CPU需要花大量的时间来处理中断服务程序，CPU利用率严重下降。

1.1 DMA控制方式

为了让这些快速的外部设备与主机间的数据交互更有效率，一般采用DMA控制方式：

$I/O$ $I/O$ 控制器。

$I/O$ $/$ $I/O$ 总线指明此次是要进行读写命令，如果是读命令CPU还会指明应该要把数据读到主存哪个位置，另外也要指明此时要读的数据在磁盘中的位置，最后还要指明此次要读的数据量，指明之后CPU就可以去执行其他任务。

$1$ KB为一整块)，才向CPU发出一次中断请求。

$1$ 个字。当传送完一整块数据后才向CPU发出中断请求。

$I/O$ $I/O$ 设备可以慢慢准备数据，准备好的数据会先存入DMA控制器中，每准备好一个字DMA控制器就会发出DMA请求，接着DMA控制器会占用一个存取周期，往主存对应位置写入一个字的数据。如果在这个存取周期内，CPU也想访问主存则必须等待DMA控制器写好这一个字的数据之后，CPU才可以继续往后执行访问主存。因为这里主存是被CPU和DMA控制器同时共享的。所以每次DMA往主存中写入数据时，都需要占用过一个存取周期。而一个存取周期肯定要比CPU处理一个中断程序时间短。因此DMA控制方式又比程序中转方式效率快不少。

1.2 通道控制方式

$I/O$ 设备，如果都让CPU来管理，那么CPU效率还是会变低。此时要用到通道控制方式：

$I/O$ $I/O$ $I/O$ $I/O$ 总线来管理的。

$I/O$ $I/O$ $I/O$ $I/O$ $I/O$ $I/O$ $I/O$ 设备繁杂的管理工作可以进一步得到优化。

对于之前的DMA方式来说，只能连续读入或写出一整块数据，每传送完一整块的数据都需要CPU介入，而引入通道之后对数据的存取位置输入输出这些控制，可以通过通道指令变得灵活，只需要提前编址好通道指令程序即可。只有通道完成所有工作之后，才需要CPU介入一次。

$I/O$ 系统基本组成

$I/O$ $I/O$ $I/O$ 硬件两部分构成。

$I/O$ $I/O$ $I/O$ 总线等。

$I/O$ $I/O$ $I/O$ 设备的信息交换。

$I/O$ $+$ $+$ 设备码
CPU执行的指令。
$I/O$ $I/O$ 接口要对设备做什么，设备码指明了对哪个设备进行操作。
通道指令：
通道执行的指令。通道程序提前编制好放在主存中。
$I/O$ $I/O$ 设备进行管理。

2. 外部设备

外部设备也称外围设备，是除了主机以外的、能直接或间接与计算机交换信息的装置。可以分为输入设备、输出设备和外存设备。

输入设备
用于向计算机系统输入命令和文本、数据等信息的部件。键盘和鼠标是最基本的输入设备。
输出设备
用于将计算机系统中的信息输出到计算机外部进行显示、交换等的部件。显示器和打印机是最基本的输出设备。
外存设备
是指除计算机内存及CPU缓存等以外的存储器。硬磁盘、光盘等是最基本的外存设备。

常见设备工作原理：

键盘
键盘是最常用的输入设备，通过它可发出命令或输入数据。每个键相当于一个开关，当按下键时，电信号连通；当松开键时，弹簧把键弹起，电信号断开。
$3$ 个步骤：
①查出按下的是哪个键。用硬件电路确定。
②将该键翻译成能被主机接收的编码，如ASCII码。
$I/O$ 接口。
鼠标
鼠标是常用的定位输入设备，它把用户的操作与计算机屏幕上的位置信息相联系。常用的鼠标有机械式和光电式两种。
工作原理：当鼠标在平面上移动时，其底部传感器把运动的方向和距离检测出来，从而控制光标做相应运动。
显示器
按显示设备所用的显示器件分类：阴极射线管(CRT) 显示器、液晶显示器(LCD)、LED显示器
按所显示的信息内容分类：字符显示器、图形显示器、图像显示器
性能指标：
$12\sim29$ 英寸等。
$800\times 600$ $1024\times768$ $1280\times 1024$ 等。
$8$ $256$ $16$ $n$ $2^n$ 种不同的亮度或颜色。
$30$ $60\sim120$ Hz。
现实存储器(VRAM)：也称刷新存储器，为了不断提高刷新图像的信号，必须把一帧图像信息存储在刷新存储器中。其存储容量由图像分辨率和灰度级决定，分辨率越高，灰度级越多，刷新存储器容量越大。VRAM容量计算公式如下：
$V R A M 容量 = 分辨率 \times 灰度级位数$
$60$ 帧的数据。因此对VRAM的写入速度会有一个最低要求：
$V R A M 带宽 = 分辨率 \times 灰度级位数 \times 帧频$
$1440\times900$ $24$ $1440\times900\times3B\approx3.7MB$ $60$ $3.7\times60=222MB/S$ 。
注：现代计算机中，显存除了作为当前显示帧的缓存，还会用于保存即将渲染的图像数据，所以一般比容量最小值大很多倍。
如果是集成显卡计算机，通常分配一片内存作为显存。
阴极射线管(CRT)显示器
CRT显示器主要由电子枪、偏转线圈、荫罩、高压石墨电极和荧光粉涂层及玻璃外壳5部分组成。具有可视角度大、无坏点、色彩还原度高、色度均匀、可调节的多分辨率模式、响应时间极短等且前LCD已经超过。
液晶显示器(LCD)
原理：利用液晶的电光效应，由图像信号电压直接控制薄膜晶体管，再间接控制液晶分子的光学特性来实现图像的显示。特点：体积小、重量轻、省电、无辐射、绿色环保、画面柔、不伤眼等。
LED(发光二极管)显示器
原理：通过控制半导体发光二极管进行显示，用来显示文字、图形、图像等各种信息。

LCD与LED是两种不同的显示技术，LCD是由液态晶体组成的显示屏，而LED则是由发光二极管组成的显示屏。与LCD相比，LED显示器在亮度、功耗、可视角度和刷新速率等方面都更具优势。

下面重点介绍CRT(阴极射线管)显示器。按照现实内容的不同可以分为一下几种：

字符显示器
$m\times n$ $0$ $1$ 代码不同控制扫描电子束的开或关，从而在屏幕上显示出字符。对应于每个字符窗口，所需显示字符的ASCII代码被存放在视频存储器VRAM中，以备刷新。
现实字符原理：
$I/O$ 接口，通过接口处理可以把键盘或者主机想要显示的字符信息，先把这些字符信息的ASCII码写入到显示存储器中，接着在CRT控制器的控制之下，显存里的字符会用电信号的方式送给字符发生器，在这个字符发生器中除了控制电路之外，也会又一个ROM用来存放每一个ASCII码所对应的字形码。
也就是上图右边的点阵信息，根据字符的ASCII码和CRT控制器信息选中某一个字符的字形码所存储的ROM存储单元，在这个单元中就存储了要显示字符的字形信息。之后把字形信息送到输出缓冲寄存器中，然后再通过另一个电路的控制把这个字符信息通过CRT将电子射向屏幕。最后屏幕会显示出该字符样子。这就是字符显示器显示字符原理。
注意： $m\times n$ $m\times n$ 位。这个字形码信息是存放在字符发生器ROM，而显存中存放的是ASCII信息。
图形显示器
将所显示图形的一组坐标点和绘图命令组成显示文件存放在缓冲存储器中，缓存中的显示文件传送给矢量(线段)产生器，产生相应的模拟电压，直接控制电子束在屏幕上的移动。为了在屏幕上保留持久稳定的图像，需要按一定的频率对屏幕进行反复刷新。
这种显示器的优点是分辨率高且显示的曲线平滑。目前高质量的图形显示器采用这种随机扫描方式。缺点是当显示复杂图形时，会有闪烁感。
对于图形显示来说按照扫描方式的不同可以分为光栅扫描显示器和随机扫描显示器。
这种图形显示器特点是显示图形不复杂很规则，如股票涨跌图。
图像显示器
就是电脑手机采用的显示器，可以显示丰富多彩图像信息。

还有一种常用输出设备是打印机，打印机是计算机的输出设备之一，用于将计算机处理结果打印在相关介质上。其按照印字原理不同可分为击打式打印机和非击打式打印机。

击打式打印机：利用机械动作使印字机构与色带和纸相撞而打印字符。如：机打发票、银行回执单(防伪性好)
击打式打印机优点是设备成本低、印字质量好。缺点是噪声大、速度慢。
非击打式打印机：采用电、磁、光、喷墨等物理、化学方法来印刷字符
非击打式打印机优点是速度快、噪声小。缺点是成本高。

按照打印机工作方式不同可分为：串行打印机：逐字打印、速度慢；行式打印机：逐行打印、速度快。

$I/O$ 接口

$I/O$ $I/O$ $I/O$ Controller)、设备控制器，负责协调主机与外部设备之间的数据传输。

通过之前的 $I/O$ 接口交互例子

$I/O$ 接口有以下作用：

$/$ 数据缓冲器来充当缓冲作用。
错误或状态监测：通过状态寄存器反馈设备的各种错误、状态信息，供CPU查用
控制和定时：接收从控制总线发来的控制信号、时钟信号
$/$ $I/O$ 接口需要进行格式转换。
$——I/O$ $——I/O$ 设备之间的通信。

3.1 接口工作原理

$I/O$ 接口内部做更进一步的细化：

上图主机侧是内部接口与系统总线相连，实质上是与内存、CPU相连。数据的传输方式可能是串行也可能是并行传输。

$I/O$ $/$ 并转换功能。

$I/O$ 接口，有可能会连接多个外设。

$I/O$ 接口工作步骤：

$I/O$ 控制寄存器，向设备发送命令(需要驱动程序的协助)
CPU连接在主机侧，外设连接在设备侧。CPU如果要操控打印机完成打印任务，首先CPU需要把打印机所对应的命令输入到控制寄存器当中。由于命令字千差万别，因此通常需要驱动程序协助。
$I/O$ 控制器的状态信息
CPU从状态寄存器中读取状态字，同这种方式确认设备是否就绪，或者工作是否完成。
$/$ 写数据：从数据缓冲寄存器发送或读取数据，完成主机与外设的数据交换。
$I/O$ $I/O$ 接口检测到设备工作完成后就会修改状态寄存器当中相应的比特位，这样CPU就可以通过状态寄存器的标志位得知打印机打印完成。
这里的CPU检查方式就是之前提到过的三种。

$I/O$ $I/O$ $I/O$ 控制逻辑启动设备工作之后，需要随时给CPU反馈工作状态，因此可以将设备的状态信息和控制指令存放在一个寄存器中。

$I/O$ $I/O$ $/$ $/$ 控制端口。因此CPU在对端口数据进行读写时需要指明要读写的是哪个端口的信息，这就是地址线的作用，CPU会通过地址线来指明要往哪个寄存器中读写数据。

$I/O$ $/$ 命令字相关的信息，最后数据总线还会用于传输中断类信号。

$I/O$ 接口可以接入多个设备，CPU对设备确实方式是可以对每个设备对应一组寄存器，操作不同的寄存器就是在操作不同的设备。

3.2 接口与端口

接口与端口之间的关系如下：

接口包括端口和控制逻辑，其中端口又包含数据端口(用于读写)、控制端口(用于写)和状态端口(用于读)。

由于接口内部有多个端口多个寄存器，为了表明CPU要访问的是哪个寄存器，因此需要给这些寄存器进行编址。编址方式有两种：

统一编址
$I/O$ 端口地址和内存的地址是一整套的。
$0\sim N-1$ $N$ $I/O$ $I/O$ 控制器中的某一个端口。
$I/O$ $LOAD,STORE$ $I/O$ $RISC$ 精简指令集机器常用。
$10$ $2^{10}=1024$ $10$ $I/O$ $0\sim9$ $I/O$ $10\sim1023$ $0\sim1013$ $1014\sim1023$ $IO$ $I/O$ 端口和主存单元的地址分布后就不可以随意更改。
$/$ $I/O$ 端口共享所以有较大的编址空间。读写控制逻辑电路简单。
缺点：端口占用了主存地址空间，使主存地址空间变小。外设寻址时间长(地址位数多，地址译码速度慢)。
独立编址
$I/O$ 接口和内存的编址是相互独立的。
$I/O$ $I/O$ $I/O$ $I/O$ 设备。
$I/O$ $I/O$ $I/O$ 端口的地址不占用主存地址空间。
$I/O$ $/$ $I/O$ $/$ 写两组控制信号，增加了控制逻辑电路的复杂性。

$I/O$ 接口的类型

按数据传送方式可分为：并行接口、串行接口。

并行接口：一个字节或一个字所有位同时传送。
串行接口：一位一位地传送。

注：这里所说的数据传送方式指的是外设和接口一侧的传送方式，而在主机和接口一侧，数据总是并行传送的。接口要完成数据格式转换。

$I/O$ 设备的控制方式可分为：

程序查询接口
中断接口
DMA接口

按功能选择的灵活性可分为：可编程接口、不可编程接口

$I/O$ 方式

之前介绍过 $I/O$ 控制方式其控制方式三种：程序查询方式、程序中断方式和DMA方式。下面会详细讲述每一种方式的具体实现与执行原理。

4.1 程序查询方式

$I/O$ $I/O$ 命令如下：

指令格式	功能
IN Rd, Rs	$I/O$ 端口Rs的数据输入到CPU寄存器Rd
OUT Rd, Rs	$I/O$ 端口Rd

$3$ $R_{n+1}$ $I/O$ $I/O$ $I/O$ $I/O$ 控制器会将停机信号传给外部设备。

这种方式优点：接口设计简单、设备量少。缺点：CPU在信息传送过程中要花费很多时间用于查询和等待，而且在一段时间内只能和一台外设交换信息，效率大大降低。

$/$ $100$ $50$ $30$ $32$ $32$ $2\times2^{20}B/s$ 。求CPU对这两个设备查询所花费的时间比率，由此可得出什么结论？

从时间角度计算
$1/50$ $20$ $100\times 20ns=2000ns$ 。
$30\times2000ns=6000ns$ $=60000ns/1s=0.006%$ 。所以对于鼠标的查询基本不影响CPU性能。
硬盘：
$32$ $2\times2^{20}B$ $32$ $=4B$ $(2\times2^{20}B)/4B=2^{19}$ 次。
$2^{19}\times2000ns=512\times1024\times2000ns\approx1.05\times10^9ns$ 。
$=(1.05\times10^9ns)/1s=105%$ 。
所以对硬盘的查询即使CPU将全部时间都用于对硬盘的查询也不能满足磁盘的传输要求。
从频率的角度计算

$I/O$ 状态。查询的间隔内CPU可以执行其他程序。

$100%$ $I/O$ 的完成。

4.2 程序中断方式

程序中断是指在计算机执行现行程序的过程中，出现某些急需处理的异常情况或特殊请求，CPU暂时中止现行程序，而转去对这些异常情况或特殊请求进行处理，在处理完毕后CPU又自动返回到现行程序的断点处，继续执行原程序。

CPU响应处理中断基本流程是：

中断请求
中断源(鼠标、键盘等外设)向CPU发送中断请求信号。CPU在每个指令周期的末位都是例行检查是否有中断请求。
中断响应
响应中断的条件。如果检测到中断CPU会响应中断请求，首先会判断当前CPU自己的状态是否是可以响应中断的。如执行关中断指令后CPU就不会响应中断请求信号。
中断判优：多个中断源同时提出请求时通过中断判优逻辑响应一个中断源。如果CPU当前可以相应中断，就需要中断判优，即同一时刻如果有多个外设发出中断信号，CPU会判断执行中断信号的顺序。
中断处理
$PC$ 转移到正确的中断服务程序的位置。
中断服务程序。修改PC值后就可以执行中断服务程序了。

单中断

$IF$ $IF=1$ $IF=0$ 时表示关中断(不允许处理中断信号)。

$IF=0$ ，则当前指令是原子操作，即一次性完成，不处理任何外部中断信号。在该指令完成后需要执行开中断指令。所以被关中断和开中断包裹的程序代码再执行过程中不会处理外部中断信号。但是也有一些优先级很高的中断信号必须被响应，即非屏蔽中断信号(如掉电)。而大多数中断信号都是可屏蔽中断信号。下面如果没有特殊说明中断信号默认为可屏蔽中断。

如果此时CPU处于开中断状态，当检测到一个中断请求信号时判断这个中断请求信号是哪个设备发出的方法是可以设置一个中断请求标记。

$0/1$ $I/O$ $1$ $I/O$ $I/O$ 的中断请求，也就是说，CPU响应中断的时间是在每条指令执行阶段的结束时刻(中断周期)。

CPU响应中断源必须满足三个条件：中断源有中断请求、CPU允许中断即开中断、一条指令执行完毕，且没有更紧迫的任务。

如果此时有多个外部设备发出中断信号，此时就需要中断判优操作。中断判优既可以用硬件实现，也可用软件实现：

硬件实现是通过硬件排队器实现的，它既可以设置在CPU中，也可以分散在各个中断源中
$1$ ，可以用硬件排队器实现中断处理的优先级。
上图最左边中断信号优先级最高，往右边越来越低。可以给多个中断信号进行优先级排序，优先级最高的会先执行。
软件实现是通过查询程序实现的。
$1$ ，来选择。显然用软件方式判断需要写一系列的指令来判断，所以要比硬件实现速度上慢很多。所以现在计算机通常是用硬件排队器实现的。

上面讲了如何判断优先级，而关于优先级设置定义如下：

硬件故障中断属于最高级(如掉电)，其次是软件中断(如用户程序发起系统调用)
非屏蔽中断优于可屏蔽中断
$I/O$ 设备传送的中断请求
高速设备优于低速设备，因为高速设备中断请求响应越慢，越单独高速外设的执行效率。
输入设备优于输出设备
实时设备(反馈要及时的设备)优于普通设备。

上面对解决优先级问题后，还需要找到与中断信号相对应的中断服务程序去执行。也就是要找到中断服务程序的入口地址。即进入中断服务程序的方法是把该程序第一条指令的地址放入PC。之后处理完中断程序后，需要将PC的值恢复到执行之前指向的位置。所以在执行中断程序之前还需要保留PC的值。

保存PC值的工作可以交给中断隐指令。中断隐指令是保存原程序的PC值，并让PC指向中断服务程序的第一条指令。

中断隐指令具体任务：

关中断。在中断服务程序中，为了保护中断现场(即CPU主要寄存器中的内容)期间不被新的中断所打断，必须关中断，从而保证被中断的程序在中断服务程序执行完毕之后能接着正确地执行下去。
保存断点。为了保证在中断服务程序执行完毕后能正确地返回到原来的程序，必须将原来程序的断点(即程序计数器(PC)值的内容)保存起来。通常来说PC的值可以放到堆栈中，也可以存入指定的单元。
引出中断服务程序。引出中断服务程序的实质就是取出中断服务程序的入口地址并传送给程序计数器(PC)。
可以用两种方式确定中断程序入口地址：
- 软件查询法
- 硬件向量法
  首先可以给每个中断请求信号进行编号。
  $12H$ 地址对应的主存单元内容包含了一个无条件转移指令JMP。这个JMP指令指明了当前中断请求所对应的中断服务程序入口地址。把指向中断入口起始地址，即JMP后面的值为中断向量。
  $1$ ，之后引入中断向量地址形成部件，生成向量地址。
  上面向量地址还有一个别名叫中断类型号。用这种向量地址指向中断向量(入口地址)方式是因为，如果当某个入口地址发生改变只需要修改向量地址指向的中断向量值即可，不用修改硬件电路。

这里的中断隐指令其实并不是一条指令，指的是一系列的任务，而不是某一条指令。这些一系列的请求都是CPU检测到中断信号后一定会完成的指令。

现在找到中断程序入口地址后会执行中断程序。中断程序主要任务是：

保存原来程序的运行环境
保存通用寄存器和状态寄存器的内容(如：保存ACC寄存器的值)，以便返回原程序后可以恢复CPU环境。可使用堆栈，也可以使用特定存储单元。
中断服务(设备服务)
主体部分，如通过程序控制需打印的字符代码送入打印机的缓冲存储器中(如：中断服务的过程中有可能修改ACC寄存器的值)
恢复环境
通过出栈指令或取数指令把之前保存的信息送回寄存器中(如：把原程序算到一般的ACC值恢复原样)
中断返回
弹出栈顶保存的程序断点信息，使PC回到源程序断点处。

中断处理过程总结：

上图关中断到开中断之间的指令不会被其他中断信号打断，知道最后执行开中断指令后才会响应中断请求信号。这种执行中断方式称为单重中断，即执行中断服务程序时不响应新的中断请求。

多重中断

多重中断指的是当在执行某一个中断服务程序时，这个中断服务程序执行还有可能再次被中断。所以多重中断又称中断嵌套，执行中断服务程序时可响应新的中断请求。

实现多重中断当中断隐指令处理完保存断点和送中断向量一些列指令后，进入中断服务程序，此时在保护环境和屏蔽字后执行开中断，之后执行中断服务程序过程中就可以接受其他中断信号。最后再执行完中断服务程序后再次关中断恢复环境和屏蔽字。

这里把开中断指令放在保护环境和屏蔽字后面是为了主程序在执行保护指令时不被其他外设中断信号打断造成保存失败情况。同理，恢复环境和屏蔽字原理类似。

上图屏蔽字的全程叫做中断屏蔽字。其作用是给CPU指明哪些中断信号应该先执行。本质上也是在解决请求信号优先级的问题。之前的硬件排队器作用是当收到多个中断请求时，只响应其中一个固定优先级。可以调整这个硬件排队器使，增加中断屏蔽功能，这样硬件排队器可以更加灵活地调节各种中断之间的优先级。

这种中断屏蔽技术主要用于多重中断，CPU要具备多重中断的功能，须满足下列条件：

在中断服务程序中提前设置开中断指令。
优先级别高的中断源有权中断优先级别低的中断源。

$1$ $0$ $\overline{MASK_1}$ 。

屏蔽字设置的规律：

$1$ $0$ 表示正常申请。
每个中断源对应一个屏蔽字(在处理该中断源的中断服务程序时，屏蔽寄存器中的内容为该中断源对应的屏蔽字)。
$1$ $1$ (至少要能屏蔽自身的中断)。

$4$ $A、B、C、D$ $A>B>C>D$ $D>A>C>B$

(1)写出每个中断源对应的屏蔽字。

$A$ $D$ $D$ $0$ $A$ $1110$ $B$ $0100$ $C$ $0110$ $D$ $1111$ 。

$4$ $20$ us

$B$ $5$ $D$ $20$ $30$ $D$ $B$ $5$ $A$ $A$ $20$ $55$ $B$ $5$ $C$ $C$ $20$ $B$ $B$ 程序执行完毕。

程序中断

$I/O$ $I/O$ $K$ $K$ $K+1$ $I/O$ 指令，之后重复上述操作。

$50$ $4$ $7$ $1$ $1$ $I/O$ $0.5$ ms。请回答下列问题，要求说明理由。

$/$ 输出，示意图如下：

$I/O$ $10$ $20$ $15$ 条指令启动D工作。

$1000$ 个字符，则完成这一任务所需时间大约是多少个时钟周期？
$50$ $\frac{1}{50MHz}=20$ ns
$0.5$ $\frac{0.5ms}{20ns}=25000$
$1$ $25000+10+15\times4=25070$
$1000$ $25070\times1000=25070000$
$1000$ 个字符这一任务的时间大约是多少个时钟周期？
$1000\times(10+20\times4)=9\times10^4$ 个时钟周期
在中断响应阶段CPU进行了哪些操作？
中断指令：关中断、保存断点(PC)、引出中断服务程序

4.3 DMA控制方式

DMA控制器通常是以块为单位进行读写的设备，如磁盘。

$5$ 个字。接着磁盘数据是一个字一个字发送给DMA控制器的，所以DMA控制器中要有一个数据缓冲寄存器，用来接受磁盘送来的一个字的数据。每收到一个字之后DMA控制器就可以根据里面保存的主存读写地址，把这整个字的数据内容通过系统总线传送给主存。

接着对DMA控制器传送数据过程进行细化：

DMA控制器接收外设发出的DMA请求(外设传送一个字的请求)，并向CPU发出总线请求。
CPU响应此总线请求，发出总线响应信号，接管总线控制权，进入DMA操作周期。DMA操作周期就是将缓存器中一个字的内容通过系统总线写到主存中的过程。
确定传送数据的主存单元地址及长度，并能自动修改主存地址计数和传送长度计数。
DMA控制器需要规定数据在主存和外设间的传送方向，发出读写等控制信号，执行数据传送操作。
最后等一整块数据传送完成后需要向CPU报告DMA操作结束。

在对DMA控制器内部结构进行细化：

$/$ 状态逻辑：由控制和时序电路及状态标志组成，用于指定传送方向，修改传送参数，并对DMA请求信号和CPU响应信号进行协调和同步。

$I/O$ $1$ $/$ 状态逻辑会受到一个高电平信号，于是控制电路就可以接着把数据缓冲寄存器中的数据放入主存中。

主存地址计数器：简称AR，存放要交换数据的主存地址。

传送长度寄存器：简称WC，用来记录传送数据的长度，计数溢出时，数据即传送完毕，自动发中断请求信号。

数据缓冲寄存器：用于暂存每次传送的数据。

中断机构：当一个数据块传送完毕后触发中断机构，向CPU提出中断请求。DMA控制器完成一整块的数据传输之后，需要给CPU一个反馈，因此需要有一个中断机构发出中断请求信号。中断机构右侧连接了传送长度计数器，当传送长度计数器溢出后会给中断机构发送溢出信号。

注：在DMA传送过程中，DMA控制器将接管CPU的地址总线、数据总线和控制总线，CPU的主存控制信号被禁止使用。而当DMA传送结束后，将恢复CPU的一切权利并开始执行其操作。

DMA传送过程：

$AR$ 。还有一个寄存器用于指明设备的读写地址，这个寄存器英文缩写是DAR。除此之外还要指明要传送多少个数据，这个寄存器缩写叫WC。
$/$ $+1$ ，同时也需要修改长度计数器的值。当传送完多个字后，传送长度计数器的值会溢出，溢出信号会传送给中断机构，中断机构检测到信号后，会向CPU发送中断请求，之后CPU再对DMA中断信号进行处理，这意味着一整块的数据传输已经完成。
数据传送完成后，CPU受到中断请求就会进行后处理，也就是运行相应的中断程序，做DMA结束处理。最后CPU会回到主程序继续执行主程序。

相比于之前的程序中断方式来说，程序中断方式每一个字的传送都需要CPU进行处理。但是DMA控制方式意味着，会由DMA控制着传送完一整块的数据之后再通过CPU进行处理。DMA传送过程流程图如下：

上面讲述的方式DMA控制器需要经过CPU发送的信号来确定能不能使用系统总线，所以不会发生主存同时访问的问题。但是采用三总线结构：

可以看到主存和DMA控制器之间会专门用一个DMA总线进行交互，CPU和主存之间会专门用一根主存总线进行交互。在这种情况下DMA总线想要访问主存，就不需要通过CPU决定。所以这种三总线方式会出现CPU和DMA控制器同时访问主存的问题。如果这个主存不是双端口的主存，同一时刻只能支持一个访问请求，此时就产生访问问题。可以用以下三种方案解决CPU与DMA访存冲突问题：

停止CPU访问主存
DMA控制器传送一整块数据的过程，CPU不能使用主存。
这种方式控制简单，但CPU会处于不工作状态或保持状态未充分发挥CPU对主存的利用率。
采用DMA和CPU交替访存
$C_1$ $C_2$ $C_1$ $C_2$ 那一段永远都是给CPU使用。采用这种交替访问主存方式就不需要总线使用权的申请，建立和归还过程。但是这种实现方式硬件逻辑实现更为复杂，另外对于主存利用率也不太好，有可能某一周期CPU需要很频繁访问主存，但DMA不需要。
周期挪用(周期窃取)
DMA访问主存有可能会出现下面三种情况：
1. CPU此时不妨问主存，所以不冲突
2. CPU正在访存，则需要等到CPU这个存取周期结束后再去访问主存
3. CPU与DMA同时访存，优先让DMA控制器进行访存。因为DMA中的数据缓存寄存器可能会被后来外设输入的新数据覆盖，所以要尽快放到主存中。

$I/O$ 与主机并行工作，程序和传送并行工作。

DMA方式具有下列特点：

它使主存与CPU的固定联系脱钩，主存既可被CPU访问，又可被外设访问。
在数据块传送时，主存地址的确定、传送数据的计数等都由硬件电路直接实现。
主存中要开辟专用缓冲区，及时供给和接收外设的数据。
DMA传送速度快，CPU和外设并行工作，提高了系统效率。
DMA在传送开始前要通过程序进行预处理，结束后要通过中断方式进行后处理。

DMA控制器方式与中断方式对比

	中断	DMA
数据传送	需要通过程序控制完成数据传输每次中断都会涉及到程序切换并且需要保存恢复环境	由硬件控制数据传输的过程 CPU只需进行预处理和后处理
中断请求	传送数据	后处理
响应	指令执行周期结束后响应中断	每个机器周期结束均可，总线空闲时即可响应DMA请求
场景	CPU控制，低速设备	DMA控制器控制，高速设备和块设备
优先级	优先级低于DMA	优先级高于中断
异常处理	能处理异常事件	仅传送数据