Linux C/C++內存越界定位: 利用mprotect使程序在crash在第一現場

對於大型Linux C/C++程序,內存越界和野指針類問題往往比較難定位。有的由於內存被非法改寫造成了業務功能問題,有的則直接導致了程序crash,而且還經常不是第一現場。針對這種問題,可以採取的解決方法有:

  1. 利用valgrind工具來排查,會影響程序性能;
  2. 使用Address Sanitizer工具排查;
  3. 如果是固定的內存被破壞,可以利用gdb watch來抓取第一現場的調用棧;
  4. 可以利用Git二分回退代碼庫的commit點,縮減代碼範圍進行code review;
  5. 利用mprotect來進行保護對應內存,被非法改寫時crash掉程序,分析coredump;

這裏用一個小例子介紹下mprotect用法。根據mprotect的官方文檔說明,使用mprotect這裏最重要的一點是被保護的內存是按頁對齊的,範圍也是按頁來的。這是因爲Linux管理進程地址空間是一VMA(Virtual Memory Area)爲單位來管理進程虛擬地址空間的,而VMA必須是page size大小的整數倍,可以看這篇文章 How The Kernel Manages Your Memory.
例子如下:

#include <stdio.h>
#include <stdlib.h>
#include <unistd.h>
#include <sys/mman.h>

int *result = 0;

void add(int a, int b)
{
    *result = a + b;
}

void subtract(int a, int b)
{
    *result = a - b;
}

int main()
{
    int ret;
    int pagesize;

    // 獲取操作系統一個頁的大小, 一般是 4KB == 4096
    pagesize = sysconf(_SC_PAGE_SIZE);
    printf("pagesize is: %d Byte\n", pagesize);
    if (pagesize == -1) {
        perror("sysconf");
        return -1;
    }

    // 按頁對齊來申請一頁內存, result會是一個可以被頁(0x1000 == 4096)整除的地址
    ret = posix_memalign((void**)&result, pagesize, pagesize);
    printf("posix_memalign mem %p\n", result);
    if (ret != 0) {
        // posix_memalign 返回失敗不會設置系統的errno, 不能用perror輸出錯誤
        printf("posix_memalign fail, ret %u\n", ret);
        return -1;
    }

    add(1, 1); // 結果寫入 *result
    printf("the result is %d\n", *result);

    // 保護result指向的內存, 權限設爲只讀
    ret = mprotect(result, pagesize, PROT_READ);
    if (ret == -1) {
        perror("mprotect");
        return -1;
    }

    subtract(1, 1); // 結果寫入 *result, 但是 *result 只讀, 引發segment fault
    printf("the result is %d\n", *result);

    free(result);
    return 0;
}

運行定位如下, 執行ulimit -c unlimited打開生成coredump,執行過程如下

root@ubuntu:/media/psf/Home/iLearn/learn_mprotect# ulimit -c unlimited
root@ubuntu:/media/psf/Home/iLearn/learn_mprotect# gcc -g main.c
root@ubuntu:/media/psf/Home/iLearn/learn_mprotect# ./a.out
pagesize is: 4096 Byte
posix_memalign mem 0x1b2f000
the result is 2
Segmentation fault (core dumped)
root@ubuntu:/media/psf/Home/iLearn/learn_mprotect# ls
a.out  core  main.c
root@ubuntu:/media/psf/Home/iLearn/learn_mprotect# gdb a.out core
GNU gdb (Ubuntu 7.7-0ubuntu3.1) 7.7
Reading symbols from a.out...done.
[New LWP 20389]
Core was generated by `./a.out'.
Program terminated with signal SIGSEGV, Segmentation fault.
#0  0x00000000004006e5 in subtract (a=1, b=1) at main.c:15
15      *result = a - b;
(gdb) bt
#0  0x00000000004006e5 in subtract (a=1, b=1) at main.c:15
#1  0x00000000004007f2 in main () at main.c:50

這樣由於野指針或越界導致的內存被非法改寫就可以crash到第一現場了,通過coredump就可以很容易找到問題點 :)

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章