對於大型Linux C/C++程序,內存越界和野指針類問題往往比較難定位。有的由於內存被非法改寫造成了業務功能問題,有的則直接導致了程序crash,而且還經常不是第一現場。針對這種問題,可以採取的解決方法有:
- 利用valgrind工具來排查,會影響程序性能;
- 使用Address Sanitizer工具排查;
- 如果是固定的內存被破壞,可以利用gdb watch來抓取第一現場的調用棧;
- 可以利用Git二分回退代碼庫的commit點,縮減代碼範圍進行code review;
- 利用mprotect來進行保護對應內存,被非法改寫時crash掉程序,分析coredump;
這裏用一個小例子介紹下mprotect用法。根據mprotect的官方文檔說明,使用mprotect這裏最重要的一點是被保護的內存是按頁對齊的,範圍也是按頁來的。這是因爲Linux管理進程地址空間是一VMA(Virtual Memory Area)爲單位來管理進程虛擬地址空間的,而VMA必須是page size大小的整數倍,可以看這篇文章 How The Kernel Manages Your Memory.
例子如下:
#include <stdio.h>
#include <stdlib.h>
#include <unistd.h>
#include <sys/mman.h>
int *result = 0;
void add(int a, int b)
{
*result = a + b;
}
void subtract(int a, int b)
{
*result = a - b;
}
int main()
{
int ret;
int pagesize;
// 獲取操作系統一個頁的大小, 一般是 4KB == 4096
pagesize = sysconf(_SC_PAGE_SIZE);
printf("pagesize is: %d Byte\n", pagesize);
if (pagesize == -1) {
perror("sysconf");
return -1;
}
// 按頁對齊來申請一頁內存, result會是一個可以被頁(0x1000 == 4096)整除的地址
ret = posix_memalign((void**)&result, pagesize, pagesize);
printf("posix_memalign mem %p\n", result);
if (ret != 0) {
// posix_memalign 返回失敗不會設置系統的errno, 不能用perror輸出錯誤
printf("posix_memalign fail, ret %u\n", ret);
return -1;
}
add(1, 1); // 結果寫入 *result
printf("the result is %d\n", *result);
// 保護result指向的內存, 權限設爲只讀
ret = mprotect(result, pagesize, PROT_READ);
if (ret == -1) {
perror("mprotect");
return -1;
}
subtract(1, 1); // 結果寫入 *result, 但是 *result 只讀, 引發segment fault
printf("the result is %d\n", *result);
free(result);
return 0;
}
運行定位如下, 執行ulimit -c unlimited
打開生成coredump,執行過程如下
root@ubuntu:/media/psf/Home/iLearn/learn_mprotect# ulimit -c unlimited
root@ubuntu:/media/psf/Home/iLearn/learn_mprotect# gcc -g main.c
root@ubuntu:/media/psf/Home/iLearn/learn_mprotect# ./a.out
pagesize is: 4096 Byte
posix_memalign mem 0x1b2f000
the result is 2
Segmentation fault (core dumped)
root@ubuntu:/media/psf/Home/iLearn/learn_mprotect# ls
a.out core main.c
root@ubuntu:/media/psf/Home/iLearn/learn_mprotect# gdb a.out core
GNU gdb (Ubuntu 7.7-0ubuntu3.1) 7.7
Reading symbols from a.out...done.
[New LWP 20389]
Core was generated by `./a.out'.
Program terminated with signal SIGSEGV, Segmentation fault.
#0 0x00000000004006e5 in subtract (a=1, b=1) at main.c:15
15 *result = a - b;
(gdb) bt
#0 0x00000000004006e5 in subtract (a=1, b=1) at main.c:15
#1 0x00000000004007f2 in main () at main.c:50
這樣由於野指針或越界導致的內存被非法改寫就可以crash到第一現場了,通過coredump就可以很容易找到問題點 :)