良许Linux教程网 干货合集 ARM流水线如何提高代码执行效率

ARM流水线如何提高代码执行效率

为什么有些CPU的主频相对较低,但是运算效率却更高呢?

例如,51单片机的主频是30M,而STM32单片机的主频却只有20M,但它们在执行相同代码时,主频更低的STM32花费的时间却更短。这个问题涉及到CPU流水线的工作原理,下文将围绕CPU流水线来解释相关内容。

早期CPU流水线

  1. 流水线的来源

流水线的概念最早源于工业制造领域,以汽车装配为例来解释流水线的工作方式。假设装配一辆汽车需要四个步骤:

  1. 制造车身外壳和底盘等部件;
  2. 将冲压成形后的各部件焊接成车身;
  3. 将车身等主要部件洗涤、化学处理、打磨、喷漆和烘干;
  4. 将各零部件(包括发动机和从外部购买的零部件)组装成车。

流水线的工作原理是将多个操作分解为不同的步骤,然后将这些步骤组成一个生产线。每个工人只需要完成自己的任务并将其交给下一个工人,这样可以使整个生产过程更加高效。类比到CPU上,就是将指令执行过程分为多个步骤,然后CPU每个时钟周期只完成其中的一个步骤。

  1. CPU基本结构

CPU的基本结构分为运算器、控制器和寄存器。运算器处理数学运算和逻辑运算,控制器则管理指令流并确保运算器、内存和输入/输出(IO)操作的同步。寄存器用于临时存储数据。

  1. CPU流水线的工作原理

在流水线的工作方式下,每个指令被分为若干个步骤,每个步骤都在不同的阶段被执行。这使得CPU同时执行多条不同指令的多个步骤。在每个计时周期的结束时,每个指令的一个步骤就完成了,然后下一个步骤就能开始执行,从而产生一个类似于生产线的效果。因此,在指令执行过程中,CPU不会浪费任何时钟周期。

  1. 流水线优化与主频优化

流水线优化是指提高CPU的性能和效率,以此来实现更高的时钟周期频率。通过在指令执行的不同阶段中引入更多相同的操作,可以减少设备的延迟和浪费的时间,从而提高系统的性能。相比之下,CPU主频优化则是为了更快地处理单条指令。因此,并不是所有的CPU都能通过提高时钟周期来提高性能,也许对于某些CPU来说,通过引入更多流水线可以提高性能而不需增加主频。

汽车装配需要冲压、焊接、涂装和总装四个工人,最简单的方法是一辆汽车依次经过上述四个步骤装配完成之后,下一辆汽车才开始进行装配,最早期的工业制造就是采用的这种原始的方式,即同一时刻只有一辆汽车在装配。

不久之后人们发现,某个时段中一辆汽车在进行装配时,其它三个工人都处于闲置状态,显然这是对资源的极大浪费,于是思考出能有效利用资源的新方法,即在第一辆汽车经过冲压进入焊接工序的时候,立刻开始进行第二辆汽车的冲压,而不是等到第一辆汽车经过全部四个工序后才开始,这样在后续生产中就能够保证四个工人一直处于运行状态,不会造成人员的闲置。这样的生产方式就好似流水川流不息,因此被称为流水线。

2.CPU流水线

1989 年推出的 i486 处理器引入了五级流水线。这时,在 CPU 中不再仅运行一条指令,每一级流水线在同一时刻都运行着不同的指令。这个设计使得 i486 比同频率的 386 处理器性能提升了不止一倍。

五级流水线中的取指阶段将指令从指令缓存中取出(i486 中的指令缓存为 8KB);

第二级为译码阶段,将取出的指令翻译为具体的功能操作;

第三级为转址阶段,用来将内存地址和偏移进行转换;

第四级为执行阶段,指令在该阶段真正执行运算;

第五级为退出阶段,运算的结果被写回寄存器或者内存。

由于处理器同时运行了多条指令,大大提升了程序运行的性能。

CPU流水线技术

CPU流水线技术是一种将指令分解为多步,并让不同指令的各步操作重叠,从而实现几条指令并行处理,以加速程序运行过程的技术。

指令的每步有各自独立的电路来处理,每完成一步,就进到下一步,而前一步则处理后续指令。

image-20231107223647012
image-20231107223647012

采用流水线技术后,并没有加速单条指令的执行,每条指令的操作步骤一个也不能少,只是多条指令的不同操作步骤同时执行,因而从总体上看加快了指令流速度,缩短了程序执行时间。

流水线技术是通过增加计算机硬件来实现的。它要求各功能段能互相独立地工作,这就要增加硬件,相应地也加大了控制的复杂性。如果没有互相独立的操作部件,很可能会发生各种冲突。例如要能预取指令,就需增加指令的硬件电路,并把取来的指令存放到指令队列缓冲器中,使微处理器能同时进行取指令和分析、执行指令的操作。

—来自百度百科

流水线与代码执行效果

为什么说同主频的51单片机相比STM32执行效率低呢?

除了大家认为的8位和32位宽度区别之外,还有一个就是51单片机不支持流水线(也可以理解为单流水线),而STM32支持流水线。

Cortex‐M3处理器使用一个 3 级流水线。流水线的 3 级分别是:取指、解码和执行, 如图:

image-20231107223642145
image-20231107223642145

通过下面一张图来对比单流水线和多级流水线,你就更能明白为什么51单片机执行效率低了。

image-20231107223638676
image-20231107223638676

多级流水线优缺点

并非在所有情况下流水线技术都起作用,可能有一些缺点。如果一条指令流水线能够在每一个时脉周期接纳一条新的指令,被称为完整流水线(fully pipelined)。因流水线中的指令需要延迟处理而要等待数个时脉周期,被称为非完整流水线。

当一名程序员(或者组合者/编译者)编写组合代码(或者汇编码)时,他们会假定每个指令是循序运行的。而这个假设会使流水线无效。当此现象发生后程序会表现的不正常,而此现象就是危害。不过当前有提供几种技术来解决这些危害像是转发与延迟等。

1.优点

  • 减少了处理器执行指令所需要的时脉周期,在通常情况下增加了指令的输入频率(issue-rate)。
  • 一些集成电路,例如加法器或者乘法器,通过添加更多的环路使其工作得更快,如果以流水线替代,能相对地减少环路。

2.缺点

  • 流水线处理器设计复杂度更高、生产成本更高;
  • 流水线的处理器必须在数据路径中添加额外触发器。
  • 非流水线处理器有固定指令位宽,流水线处理器的性能更难以预测,并且不同的程序之间的变化可能更大。

以上就是良许教程网为各位朋友分享的Linu系统相关内容。想要了解更多Linux相关知识记得关注公众号“良许Linux”,或扫描下方二维码进行关注,更多干货等着你 !

137e00002230ad9f26e78-265x300
本文由 良许Linux教程网 发布,可自由转载、引用,但需署名作者且注明文章出处。如转载至微信公众号,请在文末添加作者公众号二维码。
良许

作者: 良许

良许,世界500强企业Linux开发工程师,公众号【良许Linux】的作者,全网拥有超30W粉丝。个人标签:创业者,CSDN学院讲师,副业达人,流量玩家,摄影爱好者。
上一篇
下一篇

发表评论

联系我们

联系我们

公众号:良许Linux

在线咨询: QQ交谈

邮箱: yychuyu@163.com

关注微信
微信扫一扫关注我们

微信扫一扫关注我们

关注微博
返回顶部