NEON加速

NEON加速

原創

2020-04-16 21:43

NEON 技術是 ARM Cortex™-A 系列處理器的 128 位 SIMD（單指令，多數據）架構擴展，旨在爲消費性多媒體應用程序提供靈活、強大的加速功能，從而顯著改善用戶體驗。它具有 32 個寄存器，64 位寬（雙倍視圖爲 16 個寄存器，128 位寬。）
目前主流的iPhone手機和大部分android手機都支持ARM NEON加速，因此在編寫移動端算法時，可利用NEON技術進行算法加速，以長度爲4的寄存器大小爲例，相應的提速倍數約是原始的4倍。

NEON 指令可執行“打包的 SIMD”處理：

1 寄存器被視爲同一數據類型的元素的矢量
2 數據類型可爲：簽名/未簽名的 8 位、16 位、32 位、64 位單精度浮點
3 指令在所有通道中執行同一操作

如下圖所示：

本文主要介紹float32x4_t相關的結構及函數，
float32x4_t 可以理解爲vector (4),同理typexN_t即爲vector(N)。

在NEON編程中，對單個數據的操作可以擴展爲對寄存器，也即同一類型元素矢量的操作，因此大大減少了操作次數。
這裏以一個小例子來解釋如何利用NEON內置函數來加速實現統計一個數組內的元素之和。

以C++代碼爲例：
原始算法代碼如下：

#include <iostream>
using namespace std;

float sum_array(float *arr, int len)
{
    if(NULL == arr || len < 1)
    {
        cout<<"input error\n";
        return 0;
    }
    float sum(0.0);
    for(int i=0; i<len; ++i)
    {
        sum += *arr++;
    }
    return sum;
}

對於長度爲N的數組，上述算法的時間複雜度時O(N)。
採用NEON函數進行加速：

#include <iostream>
#include <arm_neon.h> //需包含的頭文件
using namespace std;

float sum_array(float *arr, int len)
{
    if(NULL == arr || len < 1)
    {
        cout<<"input error\n";
        return 0;
    }
    
    int dim4 = len >> 2; // 數組長度除4整數
    int left4 = len & 3; // 數組長度除4餘數
    float32x4_t sum_vec = vdupq_n_f32(0.0);//定義用於暫存累加結果的寄存器且初始化爲0
    for (; dim4>0; dim4--, arr+=4) //每次同時訪問4個數組元素
    {
		float32x4_t data_vec = vld1q_f32(arr); //依次取4個元素存入寄存器vec
		sum_vec = vaddq_f32(sum_vec, data_vec);//ri = ai + bi 計算兩組寄存器對應元素之和並存放到相應結果
    }
    float sum = vgetq_lane_f32(sum_vec, 0)+vgetq_lane_f32(sum_vec, 1)+vgetq_lane_f32(sum_vec, 2)+vgetq_lane_f32(sum_vec, 3);//將累加結果寄存器中的所有元素相加得到最終累加值
    for (; left4>0; left4--, arr++)
        sum += (*arr) ;   //對於剩下的少於4的數字，依次計算累加即可
    return sum;
}

上述算法的時間複雜度時O(N/4)
從上面的例子看出，使用NEON函數很簡單，只需要將依次處理，變爲批處理（如上面的每次處理4個）。

上面用到的函數有：
float32x4_t vdupq_n_f32 (float32_t value)
將value複製4分存到返回的寄存器中

float32x4_t vld1q_f32 (float32_t const * ptr)
從數組中依次Load4個元素存到寄存器中

相應的有void vst1q_f32 (float32_t * ptr, float32x4_t val)
將寄存器中的值寫入數組中

float32x4_t vaddq_f32 (float32x4_t a, float32x4_t b)
返回兩個寄存器對應元素之和 r = a+b

相應的有float32x4_t vsubq_f32 (float32x4_t a, float32x4_t b)
返回兩個寄存器對應元素之差 r = a-b

float32_t vgetq_lane_f32 (float32x4_t v, const int lane)
返回寄存器某一lane的值

其他常用的函數還有：

float32x4_t vmulq_f32 (float32x4_t a, float32x4_t b)
返回兩個寄存器對應元素之積 r = a*b

float32x4_t vmlaq_f32 (float32x4_t a, float32x4_t b, float32x4_t c)
r = a +b*c

float32x4_t vextq_f32 (float32x4_t a, float32x4_t b, const int n)
拼接兩個寄存器並返回從第n位開始的大小爲4的寄存器 0<=n<=3
例如
a: 1 2 3 4
b: 5 6 7 8
vextq_f32(a,b,1) -> r: 2 3 4 5
vextq_f32(a,b,2) -> r: 3 4 5 6
vextq_f32(a,b,3) -> r: 4 5 6 7

float32x4_t sum = vdupq_n_f32(0);
float _a[] = {1,2,3,4}, _b[] = {5,6,7,8} ;
float32x4_t a = vld1q_f32(_a), b = vld1q_f32(_b)  ;
float32x4_t sum1 = vfmaq_laneq_f32(sum, a, b, 0);
sum + a**b[0]
(0,0,0,0) + (1*5, 2*5, 3*5, 4*5) = (5, 10 ,15 ,20)
float32x4_t sum2 = vfmaq_laneq_f32(sum1, a, b, 1);
float32x4_t sum3 = vfmaq_laneq_f32(sum2, a, b, 2);

其他常用的函數可以參考開發網站
https://developer.arm.com/technologies/neon/intrinsics
NEON函數介紹：
https://blog.csdn.net/fengbingchun/article/details/38085781
總之，NEON學習入門很快，但如果想要更精深，就需要多花些時間和功夫在上面。

發表評論

所有評論

還沒有人評論，想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.

NEON加速

NEON加速

[軟件工具百科] 互聯網資源歷史快照歸檔站點與數字圖書館

網易面試：SpringBoot如何開啓虛擬線程？

杭州的 IT 崩盤了麼？

程序員常見的文本查看工具

VS2022 解決方案打不開 .NET Framework 4.0 、 4.5 等老項目

Vue3 運行可以，build 打包發佈報錯，app.config.globalProperties 用法坑

既然測試也要求寫代碼，那乾脆讓開發兼任測試不就好了嗎？

ITSM落地經驗之建設藍圖規劃

PDF 補丁丁 1.0.2 版更新

奇怪！應用的日誌呢？？

ncsdk1.x和ncappzoo1.x安裝

ncapi1.x移植到arm下

JPEG文件頭分析

RTP封包

HI3559A系統卡死問題-修復

Mac下配置sublime實現LaTeX

https://yachay.unat.edu.pe/blog/index.php?comment_area=format_blog&comment_component=blog&comment_co

linux以太網驅動總結