[转帖]尝试梳理下ARM处理器的发展历史

大家好，这篇文章是我的朋友Michael Yao写的，我觉得非常不错，分享给大家。

1. 前言

本文尝试简单梳理下ARM处理器的发展历史、架构的演进，包括不同处理器的应用方向，但我们重点还是围绕Cortex-A系列展开，也会介绍不同微架构处理器之间的继承关系，以及它们分别出自哪个设计团队等。不出意外，这将会是一个系列，分别是ARM处理器及架构发展概述、ARMV7-A架构以及微架构分析、ARMv8-A架构以及微架构分析，一些关键技术如Trustzone/big.LITTLE/NEON/AMBA、以及整个ARM软件生态的总体情况分析等。

2. ARM处理器发展历史及商业模式

ARM的前身是英国剑桥的Acorn Computers ，1990年正式成立，从1997年发布具有里程碑意义的ARM9后，从此进入快速发展的阶段。

ARM架构是当今世界上应用最广的RISC处理器架构之一，凭借其开放架构授权的商业模式，以低功耗为特点，是嵌入式和移动处理器领域绝对的霸主。除了CPU，ARM还会提供Mali GPU、符合AMBA协议的总线设计、一些常见外设IP，包括配套软件等一整套SoC解决方案。

ARM 的商业模式为IP授权，即通过知识产权授权的方式，收取一次性技术授权费用和版税提成。但ARM 只专注于设计CPU/GPU等IP的设计，代工或生产由被授权的客户自行解决。ARM收入包括前期授权费（license）和版税（Royalty），其中版税是按照使用ARM的芯片的出货量，按比例抽成。

ARM提供授权的方式有这么几种：

处理器授权：是最低的授权层级，指授权合作厂商使用ARM设计好的处理器，对方不能改变原有设计，但可以根据需要调整如产品的频率、功耗等。
POP(Processor Optimization Pack，处理器优化包)授权：处理器授权的高级形式， ARM出售优化后的处理器给授权合作厂商，方便其在特定工艺下设计、生产出性能有保证的处理器，如为三星、德州仪器、博通、飞思卡尔、富士通等基于ARM处理器推出自己的芯片。
架构/指令集层级授权：可以对 ARM架构或 ARM指令集进行改造以实现自行设计处理器，如高通的Krait架构和苹果的Swift架构等。

3. ARM处理器架构发展概述

ARMv6主要特性

Thumb-2：是对32位ARM指令集的扩充，它的目标是为了实现更高的代码密度；
TrustZone：安全扩展，将物理资源隔离，分为Secure word和nNormal word，处理器通过SMC指令，可以在两个世界之间切换。该扩展需要总线、MMU的支持，DDR、SRAM、外设等也需要不同的IP来做控制，以实现安全隔离；
SIMD：这一代SIMD指令集依赖的向量寄存器，复用了ARM本身的通用寄存器。支持8/16bit整数，可以实现4个8bit整数或者2个16bit整数的并行计算；

ARMv7主要特性

高级SIMD：在ARM v7-A架构中，ARM进一步发展自身的SIMD指令集，并命名为NEON。这一代的指令集，有32个64bit的NEON向量寄存器，同时也支持单精度浮点；
VFPv3/v4：浮点体系结构 (VFP) 为半精度、单精度和双精度浮点运算中的浮点操作提供硬件支持，符合 IEEE-754 标准，VFPv4相当于VPPv3主要增加了half-precision extension和乘加的指令。ARM的vfp可以实现为32个或16个double-word register，分别以VFPv3-D32和VFPv3-D16来表示。当NEON和VFP同时实现时，VFP只可以实现为VFP-D32；
LPAE（Large Physical Address Extension）：大地址扩展，一般为40位地址扩展，可以将寻址范围从2^32 4GB扩展到2^40 1TB，也有处理器后来扩展到44bit ；
Virtualization：在 Normal world 里面加入了一个新的CPU模式——HYP mode，需要MMU和GIC（中断控制器）分别提供IPA（Intermediate Physical Address）和虚拟中断的转发的支持。

ARMv8主要特性

Secure EL2：该特性Armv8.4-A引入，在Secure word增加了虚拟化支持；
PA（Pointer Authentication）：v8.3引入，增强安全，函数指针检查，CPU在执行函数跳转时检查函数指针是否正确(使用MAC算法),防止跳转指针被修改；
BTI（Branch Target Identifiers）：v8.5引入，对间接跳转的目标进行限制。与PA结合使用极大程度减少控制流攻击;
MTE（Memory Tagging Extension）：v8.5引入，内存区域进行标记，对保护区域访问必须使用具有相同标记的指针。可检测溢出、UAF类漏洞;
Scalar Floating Point：aarch64提供32个128-bit寄存器用于SIMD vector and scalar floating-point支持；aarch32提供32个64-bit寄存器用于SIMD vector and scalar floating-point支持；
Enhanced Crypto：v8一开始就增加了cryptography 指令，包括AES, SHA-1/SHA-256 等算法实现，又在v8.4增加了"SHA3/SHA512/SM3/SM4"的支持；
bfloat：v8.2引入，增加FP16数据处理指令
Vector Extensions：v8.2引入，Scalable Vector Extension（SVE）是arm AArch64架构下的下一代SIMD指令集，旨在加速高性能计算，允许vector从28到2048 bit长度可变。
Improved virtualization support：v8.4引入

ARMv9主要特性

Improved Security：主要是引入了全新的CCA（confidential compute architecture，机密计算架构）架构。机密计算可以打造基于硬件的安全运行环境来执行计算，保护部分敏感数据和代码，甚至不受特权软件的影响，即使是具有最高权限的OS也无法影响。虽然OS可以决定何时运行，但应用程序位于独立的硬件保护内存区域，和系统中的一切是隔离的。这意味着就算应用感染了恶意软件，也不会传播给设备里的其他部分。

Digital Signal Processing & Machine Learning：在ARMv8.2中引入SVE，但它的问题在于，新的可变矢量长度SIMD指令集的第一次迭代的范围相当有限，并且更多地针对HPC工作负载，缺少了许多仍由NEON涵盖的更通用的指令。SVE2，旨在通过用所需指令补充新的可扩展SIMD指令集来解决此问题，以服务于类似DSP/ML等目前仍在使用NEON的工作负载。除了增加的各种现代SIMD功能外，SVE和SVE2的优势还在于其可变的向量大小，范围覆盖了128bits到2048bits，让其无论在什么硬件运行，都允许向量的可变粒度为128b。如果纯粹从向量处理和编程的角度来看，这意味着软件开发人员将只需要编译一次其代码，并且如果将来某个CPU带有本地的512b SIMD execution pipelines，该代码将能够充分利用单元的整个宽度。同样，相同的代码将能够在具有较低硬件执行宽度能力的保守设计上运行，这对于Arm设计从物联网、移动到数据中心的CPU而言至关重要。在保留Arm体系结构的32bits编码空间的同时，它还可以完成所有这些工作。然而类似X86这样的架构则需要根据矢量尺寸增加新的指令和扩展。

4. ARM处理器分类及应用领域

ARM处理器现在产品线主要有Cortex-A、Cortex-R、Cortex-M、SecureCore、Neoverse等几个系列。

Cortex-A系列处理器

Application Processors（应用处理器），主要面向移动计算，智能手机领域，2011年引入big.LITTLE，至2017年演化为DynamIQ。该系列历经ARMv7、ARMv8和ARMv9（上图并没有列出全部ARMv8处理器和ARMv9处理器，后面会有介绍）。系列支持基于内存管理单元（MMU）的虚拟内存系统体系结构（VMSA）。ARMv8它支持A64、A32和T32指令集，ARMv9开始已不再支持32位指令集。

Cortex-R系列处理器

Real-time Processors（实时处理器），面向实时应用的高性能处理器系列，例如硬盘控制器，汽车传动系统和Modem基带等，该系列主要支持基于内存保护单元（MPU）的受保护内存系统体系结构（PMSA）。它支持A32和T32指令集。但最新的是Cortex-R82处理器，是64bit，带MMU，支持RichOS，支持NEON。

Cortex-M系列处理器

Microcontroller Processors（微控制器处理器），微控制器处理器通常设计成面积很小和能效比很高。通常这些处理器的流水线很短，最高时钟频率相对较低，它支持T32指令集的变种。主要面向IOT物联网领域。

SecureCore系列处理器

SecureCore，基于AR M-M架构，增强了嵌入式安全，主要有SC000和SC300，分别基于Cortex-M0 (v6-M)和Cortex-M3 (v7-M)。

Neoverse系列处理器

Neoverse（服务器端），面向云端到边缘的HPC、AI/ML加速等领域，是Cortex之外的另一条面向服务器和基础设施设备的核心IP。如初代发布即收获不错市场反响的Neoverse N1核心IP，亚马逊Graviton2、Ampere Altra是基于IP设计的产品。

ARM处理器的发展历史如下所示：

其他应用领域

ARM的汽车增强（AE）IP系列产品，于2018年推出Cortex-A76AE处理器，主要用于汽车ADAS（高级驾驶员辅助）系统，其支持Split-Lock分离-锁定技术，使得CPU核心可以运行在不同的模式下，分离模式下性能最大化，锁定模式下两个核心/线程可以互相锁定，最大程度确保安全。除了安全性能之外，Cortex-A65AE处理器还是ARM首个支持SMT多线程技术的，SMT为了提高数据吞吐率，因为ADAS除了安全和性能外，还需要处理大量传感器带来大计算负载及高吞吐量。据ARM宣称，Cortex-A65AE处理器在能效更高的情况下吞吐率比前代（Cortex-A53）提升3.5倍。2020年，ARM又推出了新的Cortex-A78AE，新产品带来了更高性能的CPU内核，还首次采用了AE级GPU Mali-G78AE 和ISP Mali-C71AE。新的Cortex-A78AE基于Cortex-A78微架构，与上一代Corex-A76AE相比，IPC提升了30％。

苹果在2020年11月，发布了基于ARM处理器的MAC便携机，该SoC芯片为M1。另外，根据网上资料，高通基于ARM处理器的PC芯片应该会在这两年推出。

5. ARM Cortex-A系列处理器

ARM Cortex-A系列处理器细分

ARM Cortex-A系列处理器目前主要有超低功耗核、小核、大核、超大核4个系列，我们主要关注ARMv7、ARMv8和ARMv9这三代架构的处理器。

超低功耗的处理器有：ARMv7架构的A5和A7，ARMv8架构的A35、A32和A34；
作为小核的处理器有：ARMv7架构的A8和A9，ARMv8架构的A53和A55，以及ARMv9架构的A510；
作为大核的处理器有：ARMv7架构的A15和A17，ARMv8架构的A57、A72、A73、A75、A76、A77和A78，以及ARMv9架构的A710和A715；
作为超大核的处理器有：ARMv8架构的X1，以及ARMv9架构的X2和X3；

2011年有了big.LITTLE技术出来以后，ARMv7架构的A7可以作为小核和A15/17作为大核搭配；2012年ARMv8架构的A53作为小核和A57/A72/A73搭配使用；当然有了A35后，A53/A55也可以作为大核与A35作为小核搭配使用；2017年big.LITTLE进化为DynamIQ，大小核的搭配更为灵活多变，A75到A78都可以作为大核与A55进行搭配，此时出现了1+3+4（1个超大核、3个大核和4个小核）的搭配，一般用大核超频当做超大核用。

直到2020年ARM发布Cortex-X1，才有了真正意义上的超大核，定义是“可定制”移动平台，芯片商可以根据预算和需求向ARM提出要求，然后ARM再根据不同的应用场景调整各个模块的规格设计，当然也需要单独的授权。Cortex-X2/X3应该都是公版了（这块存疑）。最新的搭配可以有1个X3（超大核）+3个A715（大核）+4个A510（小核）这样的组合。

ARM Cortex-A系列处理器演进关系

从整体演进关系我们可以看到A9分为：A5往下的系列CPU（超低功耗路线）、A15（大核和超大核）、A12/17（未演进？）、A7分支（小核）这么几个分支；其中大核从A77又分化成传统大核和Cotex-X系列的超大核。

大核演进路线为：A8->A9->A15->A57->A72->A73 -> A75 ->A76> A77->A78->A710->A715

超大核是从A77这一支线分叉出来的，分别为 A77->X1->X2->X3

小核的演进路线为：A9->A7->A53->A55>A73 -> A510

超低功耗核的演进路线为：A9->A5->A35->A32/A34

ARM处理器设计团队

ARM处理器主要出自Austin、Sophia、Cambridge三个Team之手，主要处理器如下:

Austin (Texas)
- Cortex-A8, Cortex-A15, Cortex-A57, Cortex-A72, Cortex-A76, Cortex-A77, Cortex-A78
- Cortex-X1, Cortex-X2, Cortex-X3
- Neoverse N1, Neoverse N2, Neoverse V1
Sophia-Antipolis (France)
- ARM11, Cortex-A9, Cortex-A12, Cortex-A17, Cortex-A73, Cortex-A75
Cambridge (UK)
- Cortex-A5, Cortex-A7, Cortex-A53, Cortex-A35, , Cortex-A55

另外，从网上公开资料看，Cortex-A76AE是美国Arizona州Chandler design centre设计的，其他面向汽车领域的处理器如Cortex-A65E/A78E是否为该团队设计暂未可知。

全文完。

参考文章

https://en.wikichip.org/wiki/arm_holdings
https://en.wikipedia.org/wiki/AArch64
https://developer.arm.com/documentation/102378/0201/Armv8-x-and-Armv9-x-extensions-and-features
https://www.arm.com/zh-TW/architecture/security-features/arm-confidential-compute-architecture
https://broadgeek.com/2021/12/12/c8bf/
https://en.wikipedia.org/wiki/List_of_ARM_processors
https://www.anandtech.com/show/13727/arm-announces-cortex65ae-for-automotive-first-smt-cpu-core
https://www.anandtech.com/show/13398/arm-unveils-arm-safety-ready-initiative-cortexa76ae-processor
https://www.anandtech.com/show/16114/arm-announces-cortexa78ae-malig78ae-and-malic71ae-autonomous-system-ips
http://www.anandtech.com/show/10347/arm-cortex-a73-artemis-unveiled
ARM行业研究框架，太平洋证券

文章知识点与官方知识档案匹配，可进一步学习相关知识

Java技能树首页概览143104 人正在系统学习中

[转帖]尝试梳理下ARM处理器的发展历史

1. 前言

2. ARM处理器发展历史及商业模式

3. ARM处理器架构发展概述

ARMv6主要特性

ARMv7主要特性

ARMv8主要特性

ARMv9主要特性

4. ARM处理器分类及应用领域

Cortex-A系列处理器

Cortex-R系列处理器

Cortex-M系列处理器

SecureCore系列处理器

Neoverse系列处理器

其他应用领域

5. ARM Cortex-A系列处理器

ARM Cortex-A系列处理器细分

ARM Cortex-A系列处理器演进关系

ARM处理器设计团队

参考文章

EXCEL中下拉菜单中添加新选项或者删除选项

京东科技数字化营销能力的演进与最佳实践| 京东云技术团队

Python 爬虫：Spring Boot 反爬虫的成功案例

Java中止线程的方式

[转帖]Oracle Exadata 学习笔记之核心特性Part1

《最新出炉》系列入门篇-Python+Playwright自动化测试-43-分页测试

HTTP协议相关文档

[轉帖]Oracle Exadata 學習筆記之核心特性Part1

[轉帖]Release Schedule of Current Database Releases (Doc ID 742060.1)

[轉帖]【MySQL】字段名與關鍵字衝突解決辦法

[轉帖]AMD 第四代宵龍價格情況

EPYC 9B14（最強 Zen4 EPYC 2.6GHz 96c）簡要上手感受

https://yachay.unat.edu.pe/blog/index.php?comment_area=format_blog&comment_component=blog&comment_co

linux以太網驅動總結