ARM嵌入式系統(tǒng)為什么要做內(nèi)存對齊

做嵌入式系統(tǒng)軟件開發(fā),經(jīng)常在代碼中看到各種各樣的對齊棒妨,很多時候我們都是知其然不知其所以然踪古,知道要做好各種對齊,但是不明白為什么要對齊券腔,不對齊會有哪些后果伏穆,這篇文章大概總結(jié)了內(nèi)存對齊的理由。

CPU體系結(jié)構(gòu)和MMU的要求

  • 目前有一些RISC指令集的CPU不支持非對齊的內(nèi)存變量訪問操作纷纫,比如 MIPS/PowerPC/某些DSP等等枕扫,如果發(fā)生非對齊的內(nèi)存訪問,會產(chǎn)生unaligned exception 異常辱魁。

  • ARM指令集是從ARMv6(ARM11)開始支持非對齊內(nèi)存訪問的烟瞧,以前老一點的ARM9的CPU也是不支持非對齊訪問的。ARM指令集支持的部分特性迭代如下:


    image.jpg
  • 盡管現(xiàn)代的ARMv7 ARMv8 指令集的Cortex-AXX系列CPU都支持非對齊內(nèi)存訪問染簇,但是考慮到如下圖所示現(xiàn)代SOC芯片里面多種異構(gòu)CPU協(xié)調(diào)工作的情況参滴,主CPU用于跑Linux/Android操作系統(tǒng)的ARM64可以支持非對齊內(nèi)存訪問,但是SOC里面還有其它不知道體系結(jié)構(gòu)和版本的協(xié)CPU(可能是MIPS, ARM7锻弓,Cortex-R/M系列砾赔, 甚至51單片機核),這些協(xié)CPU都和主ARM64主CPU共享物理內(nèi)存的不同地址段,并且有自己的固件程序在內(nèi)存上運行暴心,所以在劃分地址空間的時候還是要注意內(nèi)存對齊的問題妓盲,尤其是考慮到這些協(xié)CPU可能不支持非對齊訪問,同樣在編寫協(xié)CPU固件程序的時候专普,也要清晰認(rèn)識到該CPU是否支持非對齊內(nèi)存訪問悯衬。

image.png
  • 同樣在ARM的MMU虛擬地址管理中,也有內(nèi)存地址對齊的要求脆诉,下圖是ARM的MMU的工作原理和多級頁表(Translation Tables)的索引關(guān)系圖
image.jpg

image.jpg
  • ARM體系架構(gòu)的MMU要求

    • arm 32位體系結(jié)構(gòu)要求L1第一級頁表基地址(The L1 Translation Table Base Addr)對齊到16KB的地址邊界甚亭,L2第二級頁表地址(The L2 Translation Table Add)對齊到1KB的地址邊界。
    • ARM 64位體系結(jié)構(gòu)要求虛擬地址的第21-28位VA[28:21]對齊到64 KB granule击胜, 第16到20位VA[20:16]對齊到4 KB granule?亏狰。
  • ARM 的Memory ordering特性中的不同Memory types對非對齊內(nèi)存訪問的支持的要求是不同的。
    下圖是ARM Memory ordering特性中三種不同的Memory types訪問規(guī)則


    image.jpg
    • 只有Normal Memory是支持非對齊內(nèi)存訪問的
    • Strongly-ordered 和 Device Memory不支持非對齊內(nèi)存訪問

對原子操作的影響

盡管現(xiàn)代的ARMv7 ARMv8 指令集的ARM CPU支持非對齊內(nèi)存訪問偶摔,但是非對齊內(nèi)存訪問是無法保證操作的原子性暇唾。
下圖分別是一個變量在內(nèi)存對齊和非對齊的時候的內(nèi)存布局:


image.jpg

image.jpg
  • 內(nèi)存對齊的變量訪問,使用單個通用的CPU寄存器暫存辰斋,一個內(nèi)存對齊的變量的讀寫操作能保證是單次原子操作.
  • 非對齊的變量的內(nèi)存訪問是非原子操作策州,他們通常情況下訪問一個非對齊的內(nèi)存中的變量需要2次分別的對內(nèi)存進(jìn)行訪問,因而不能保證原子性宫仗,一旦發(fā)生2次分別內(nèi)存訪問够挂,2次分別的訪問中間就有可能被異步事件打斷,造成變量改變藕夫,因而不能保證原子性孽糖。

ARM NEON的要求

現(xiàn)代ARM CPU一般都有一個NEON的協(xié)處理器,一般用在浮點計算中用來做SIMD并行矢量加速計算毅贮。下圖是NEON SIMD并行矢量計算的基本原理圖:


image.jpg

image.jpg
  • NEON本身是支持非對齊內(nèi)存訪問的
  • 但是NEON訪問非對齊的內(nèi)存一般會有2個指令周期的時間penalty
  • 通常情況下办悟,為了靈活應(yīng)用NEON的并行計算特性,在做SIMD并行矢量加速運算時滩褥,我們要根據(jù)NEON寄存器的Lane的bits數(shù)對齊相應(yīng)的變量病蛉。如果是配置成8-bits的計算,就做8-bits對齊瑰煎,如果是16-bits計算铺然,就做16-bits對齊,以此類推酒甸,NEON的并行矢量計算的lane根據(jù)spec手冊探熔,有各種靈活配置的方法。

對性能perf的影響

  • 通常而言烘挫,盡管現(xiàn)代的ARM CPU已經(jīng)支持非對齊內(nèi)存的訪問诀艰,但是ARM訪問非對齊的內(nèi)存地址還是會造成明顯的性能下降柬甥。因為訪問一個非對齊的內(nèi)存,需要增加多次load/store內(nèi)存變量次數(shù)其垄,進(jìn)而增加了程序運行的指令周期
  • 才有perf工具進(jìn)行性能分析苛蒲,能看到非對齊內(nèi)存訪問的性能下降,在perf工具中有一個alignment-faults的事件绿满,可以觀察程序訪問非對齊內(nèi)存的事件統(tǒng)計

cache line 對齊

除了通常所講的根據(jù)CPU訪問內(nèi)存的地址位數(shù)的內(nèi)存對齊之外臂外,在程序優(yōu)化的時候,還要考慮到cache存在的情況喇颁,根據(jù)cache line的長度來對齊你的訪問變量漏健。

  • cache和cache line的結(jié)構(gòu)原理圖如下(其中圖2從該文章引用自:cenalulu), cache line是cache和內(nèi)存進(jìn)行數(shù)據(jù)傳輸?shù)淖钚挝唬话鉩ache都是以cache line的長度一次讀寫內(nèi)存中的映射地址橘霎。

    image.jpg

    image.jpg

  • 在ARM 系列的CPU中蔫浆,不同型號的ARM CPU的cache line長度是不一樣的,因此同樣是基于ARM平臺的CPU姐叁,從A平臺移植優(yōu)化過的程序到B平臺時瓦盛,一定要注意不同CPU的cache line大小是否一致,是否要重新調(diào)整cache line對齊優(yōu)化外潜。下圖是ARMv7幾款公版CPU的cache line的資料手冊原环,ARMv8 64位的公版CPU(A53, A57, A72, A73)目前的cache line大小都是64 bytes, 但是各家公司基于公版ARM的定制版CPU的cache line大小可能有差異,一定要參考相關(guān)TRM手冊進(jìn)行調(diào)整处窥、對齊嘱吗、優(yōu)化.


    image.jpg
  • 下圖是一個例子關(guān)于未做cache line對齊的情況下,進(jìn)行內(nèi)存讀寫性能抖動的例子滔驾,引用自cenalulu柜与。測試代碼如下
    程序的大意,對不同大小的數(shù)組進(jìn)行1億次讀寫操作嵌灰,統(tǒng)計不同數(shù)組大小的讀寫時間。從測試的結(jié)果可以看出颅悉,當(dāng)數(shù)組大小小于cache line size時沽瞭,讀寫時間基本變化不大,當(dāng)數(shù)組大小剛剛超過cache line 大小的時候剩瓶,讀寫時間發(fā)生了劇烈的抖動驹溃。
    這是因為超過cache line 大小的數(shù)組元素可能沒有提前預(yù)讀到cache line中,在訪問完cache line中的數(shù)組元素之后延曙,要重新從內(nèi)存讀取數(shù)據(jù)豌鹤,刷新cache line,因而產(chǎn)生了性能抖動枝缔。
    通過這個例子告訴我們布疙,充分利用系統(tǒng)cache特性蚊惯,根據(jù)cache line對齊你的數(shù)據(jù),保證程序訪問的局部數(shù)據(jù)都在一個cache line中可以提升系統(tǒng)性能灵临。


#include "stdio.h"
#include <stdlib.h>
#include <sys/time.h>

long timediff(clock_t t1, clock_t t2) {
    long elapsed;
    elapsed = ((double)t2 - t1) / CLOCKS_PER_SEC * 1000;
    return elapsed;
}

int main(int argc, char *argv[])
#*******
{

    int array_size=atoi(argv[1]);
    int repeat_times = 1000000000;
    long array[array_size];
    for(int i=0; i<array_size; i++){
        array[i] = 0;
    }
    int j=0;
    int k=0;
    int c=0;
    clock_t start=clock();
    while(j++<repeat_times){
        if(k==array_size){
            k=0;
        }
        c = array[k++];
    }
    clock_t end =clock();
    printf("%lu\n", timediff(start,end));
    return 0;
}
image.jpg
  • 沒有對齊到同一個cache line中的變量截型,在多核SMP系統(tǒng)中,cross cache line操作是非原子操作儒溉,存在篡改的風(fēng)險宦焦。該例子引用自kongfy
    測試代碼如下,
    程序大意是顿涣,系統(tǒng)cpu的cache line是64字節(jié)波闹,一個68字節(jié)的結(jié)構(gòu)體struct data, 其中前面填充60字節(jié)的pad[15]數(shù)組涛碑,最后一個8字節(jié)的變量v, 這樣結(jié)構(gòu)體大小超過了64字節(jié)精堕,最后一個變量v的前后部分可定不在同一個cache line中,整個結(jié)構(gòu)體沒法根據(jù)cache line對齊锌唾。
    全局變量value.v初始值是0锄码, 程序開多線程,對全局變量value.v進(jìn)行多次~位取反操作晌涕,直覺上最后結(jié)果value.v的位結(jié)果不是全0就是全1滋捶,但是最后value.v的位結(jié)果居然是一半1一半0, 這就是由于cross cache line 操作是非原子性的余黎,導(dǎo)致一個線程對value.v前半部分取反的時候重窟,另外的線程對后半部分在另一個cache line同時取反,然后前一個線程再對另一個cache line的value.v后半部分取反惧财,導(dǎo)致和直覺不一致巡扇。

#include <pthread.h>
#include <stdlib.h>
#include <stdio.h>
#include <algorithm>
 
using namespace std;
 
static const int64_t MAX_THREAD_NUM = 128;
 
static int64_t n          = 0;
static int64_t loop_count = 0;
 
#pragma pack (1)
struct data
{
  int32_t pad[15];
  int64_t v;
};
#pragma pack ()
 
static data value __attribute__((aligned(64)));
static int64_t counter[MAX_THREAD_NUM];
 
void worker(int *cnt)
{
  for (int64_t i = 0; i < loop_count; ++i) {
    const int64_t t = value.v;
 
    if (t != 0L && t != ~0L) {
      *cnt += 1;
    }
 
    value.v = ~t;
    asm volatile("" ::: "memory");
  }
}
 
int main(int argc, char *argv[])
{
  pthread_t threads[MAX_THREAD_NUM];
 
  /* Check arguments to program*/
  if(argc != 3) {
      fprintf(stderr, "USAGE: %s <threads> <loopcount>\n", argv[0]);
      exit(1);
  }
 
  /* Parse argument */
  n          = min(atol(argv[1]), MAX_THREAD_NUM);
  loop_count = atol(argv[2]); /* Don't bother with format checking */
 
  /* Start the threads */
  for (int64_t i = 0L; i < n; ++i) {
    pthread_create(&threads[i], NULL, (void* (*)(void*))worker, &counter[i]);
  }
 
  int64_t count = 0L;
  for (int64_t i = 0L; i < n; ++i) {
    pthread_join(threads[i], NULL);
    count += counter[i];
  }
 
  printf("data size: %lu\n", sizeof(value));
  printf("data addr: %lX\n", (unsigned long)&value.v);
  printf("final: %016lX\n", value.v);
 
  return 0;
}
最后編輯于
?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請聯(lián)系作者
  • 序言:七十年代末,一起剝皮案震驚了整個濱河市垮衷,隨后出現(xiàn)的幾起案子厅翔,更是在濱河造成了極大的恐慌,老刑警劉巖搀突,帶你破解...
    沈念sama閱讀 218,204評論 6 506
  • 序言:濱河連續(xù)發(fā)生了三起死亡事件刀闷,死亡現(xiàn)場離奇詭異,居然都是意外死亡仰迁,警方通過查閱死者的電腦和手機甸昏,發(fā)現(xiàn)死者居然都...
    沈念sama閱讀 93,091評論 3 395
  • 文/潘曉璐 我一進(jìn)店門,熙熙樓的掌柜王于貴愁眉苦臉地迎上來徐许,“玉大人施蜜,你說我怎么就攤上這事〈朴纾” “怎么了翻默?”我有些...
    開封第一講書人閱讀 164,548評論 0 354
  • 文/不壞的土叔 我叫張陵缸沃,是天一觀的道長。 經(jīng)常有香客問我冰蘑,道長和泌,這世上最難降的妖魔是什么? 我笑而不...
    開封第一講書人閱讀 58,657評論 1 293
  • 正文 為了忘掉前任祠肥,我火速辦了婚禮武氓,結(jié)果婚禮上,老公的妹妹穿的比我還像新娘仇箱。我一直安慰自己县恕,他們只是感情好,可當(dāng)我...
    茶點故事閱讀 67,689評論 6 392
  • 文/花漫 我一把揭開白布剂桥。 她就那樣靜靜地躺著忠烛,像睡著了一般。 火紅的嫁衣襯著肌膚如雪权逗。 梳的紋絲不亂的頭發(fā)上美尸,一...
    開封第一講書人閱讀 51,554評論 1 305
  • 那天,我揣著相機與錄音斟薇,去河邊找鬼师坎。 笑死,一個胖子當(dāng)著我的面吹牛堪滨,可吹牛的內(nèi)容都是我干的胯陋。 我是一名探鬼主播,決...
    沈念sama閱讀 40,302評論 3 418
  • 文/蒼蘭香墨 我猛地睜開眼袱箱,長吁一口氣:“原來是場噩夢啊……” “哼遏乔!你這毒婦竟也來了?” 一聲冷哼從身側(cè)響起发笔,我...
    開封第一講書人閱讀 39,216評論 0 276
  • 序言:老撾萬榮一對情侶失蹤盟萨,失蹤者是張志新(化名)和其女友劉穎,沒想到半個月后了讨,有當(dāng)?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體捻激,經(jīng)...
    沈念sama閱讀 45,661評論 1 314
  • 正文 獨居荒郊野嶺守林人離奇死亡,尸身上長有42處帶血的膿包…… 初始之章·張勛 以下內(nèi)容為張勛視角 年9月15日...
    茶點故事閱讀 37,851評論 3 336
  • 正文 我和宋清朗相戀三年量蕊,在試婚紗的時候發(fā)現(xiàn)自己被綠了。 大學(xué)時的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片艇挨。...
    茶點故事閱讀 39,977評論 1 348
  • 序言:一個原本活蹦亂跳的男人離奇死亡残炮,死狀恐怖,靈堂內(nèi)的尸體忽然破棺而出缩滨,到底是詐尸還是另有隱情势就,我是刑警寧澤泉瞻,帶...
    沈念sama閱讀 35,697評論 5 347
  • 正文 年R本政府宣布,位于F島的核電站苞冯,受9級特大地震影響袖牙,放射性物質(zhì)發(fā)生泄漏。R本人自食惡果不足惜舅锄,卻給世界環(huán)境...
    茶點故事閱讀 41,306評論 3 330
  • 文/蒙蒙 一鞭达、第九天 我趴在偏房一處隱蔽的房頂上張望。 院中可真熱鬧皇忿,春花似錦畴蹭、人聲如沸。這莊子的主人今日做“春日...
    開封第一講書人閱讀 31,898評論 0 22
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽。三九已至幔荒,卻和暖如春糊闽,著一層夾襖步出監(jiān)牢的瞬間,已是汗流浹背爹梁。 一陣腳步聲響...
    開封第一講書人閱讀 33,019評論 1 270
  • 我被黑心中介騙來泰國打工右犹, 沒想到剛下飛機就差點兒被人妖公主榨干…… 1. 我叫王不留,地道東北人卫键。 一個月前我還...
    沈念sama閱讀 48,138評論 3 370
  • 正文 我出身青樓傀履,卻偏偏與公主長得像,于是被迫代替她去往敵國和親莉炉。 傳聞我的和親對象是個殘疾皇子钓账,可洞房花燭夜當(dāng)晚...
    茶點故事閱讀 44,927評論 2 355