C/C++中手動獲取調用堆棧

原創

kevinlynx

2020-02-26 00:48

當我們的程序core掉之後，如果能獲取到core時的函數調用堆棧將非常有利於定位問題。在Windows下可以使用SEH機制；在Linux下通過gdb使用coredump文件即可。

但有時候由於某些錯誤導致堆棧被破壞，發生拿不到調用堆棧的情況。

一些基礎預備知識本文不再詳述，可以參考以下文章：

需要知道的信息：

函數調用對應的call指令本質上是先壓入下一條指令的地址到堆棧，然後跳轉到目標函數地址
函數返回指令ret則是從堆棧取出一個地址，然後跳轉到該地址
EBP寄存器始終指向當前執行函數相關信息（局部變量）所在棧中的位置，ESP則始終指向棧頂
每一個函數入口都會保存調用者的EBP值，在出口處都會重設EBP值，從而實現函數調用的現場保存及現場恢復
64位機器增加了不少寄存器，從而使得函數調用的參數大部分時候可以通過寄存器傳遞；同時寄存器名字發生改變，例如EBP變爲RBP

在函數調用中堆棧的情況可用下圖說明：

將代碼對應起來：

void g() {
    int *p = 0;
    long a = 0x1234;
    printf("%p %x\n", &a, a);
    printf("%p %x\n", &p, p);
    f();
    *p = 1;
}

void b(int argc, char **argv) {
    printf("%p %p\n", &argc, &argv);
    g();
}

int main(int argc, char **argv) {
    b(argc, argv);
    return 0;
}

在函數g()中斷點，看看堆棧中的內容(64位機器)：

(gdb) p $rbp
$2 = (void *) 0x7fffffffe370
(gdb) p &p
$3 = (int **) 0x7fffffffe368
(gdb) p $rsp
$4 = (void *) 0x7fffffffe360
(gdb) x/8ag $rbp-16
0x7fffffffe360: 0x1234  0x0
0x7fffffffe370: 0x7fffffffe390  0x400631 <b(int, char**)+43>
0x7fffffffe380: 0x7fffffffe498  0x1a561cbc0
0x7fffffffe390: 0x7fffffffe3b0  0x40064f <main(int, char**)+27>

對應的堆棧圖：

可以看看例子中0x400631 <b(int, char**)+43>和0x40064f <main(int, char**)+27>中的代碼：

(gdb) disassemble 0x400631
...
0x0000000000400627 <b(int, char**)+33>: callq  0x400468 <printf@plt>
0x000000000040062c <b(int, char**)+38>: callq  0x4005ae <g()>
0x0000000000400631 <b(int, char**)+43>: leaveq                           # call的下一條指令
...

(gdb) disassemble 0x40064f
... 
0x000000000040063f <main(int, char**)+11>:      mov    %rsi,-0x10(%rbp)
0x0000000000400643 <main(int, char**)+15>:      mov    -0x10(%rbp),%rsi
0x0000000000400647 <main(int, char**)+19>:      mov    -0x4(%rbp),%edi
0x000000000040064a <main(int, char**)+22>:      callq  0x400606 <b(int, char**)>
0x000000000040064f <main(int, char**)+27>:      mov    $0x0,%eax         # call的下一條指令
...

順帶一提，每個函數入口和出口，對應的設置RBP代碼爲：

(gdb) disassemble g
...
0x00000000004005ae <g()+0>:     push   %rbp               # 保存調用者的RBP到堆棧
0x00000000004005af <g()+1>:     mov    %rsp,%rbp          # 設置自己的RBP
...
0x0000000000400603 <g()+85>:    leaveq                    # 等同於：movq %rbp, %rsp
                                                          #         popq %rbp
0x0000000000400604 <g()+86>:    retq

由以上可見，通過當前的RSP或RBP就可以找到調用堆棧中所有函數的RBP；找到了RBP就可以找到函數地址。因爲，任何時候的RBP指向的堆棧位置就是上一個函數的RBP；而任何時候RBP所在堆棧中的前一個位置就是函數返回地址。

由此我們可以自己構建一個導致gdb無法取得調用堆棧的例子：

void f() {
    long *p = 0;
    p = (long*) (&p + 1); // 取得g()的RBP
    *p = 0;  // 破壞g()的RBP
}

void g() {
    int *p = 0;
    long a = 0x1234;
    printf("%p %x\n", &a, a);
    printf("%p %x\n", &p, p);
    f();
    *p = 1; // 寫0地址導致一次core
}

void b(int argc, char **argv) {
    printf("%p %p\n", &argc, &argv);
    g();
}

int main(int argc, char **argv) {
    b(argc, argv);
    return 0;
}

使用gdb運行該程序：

Program received signal SIGSEGV, Segmentation fault.
g () at ebp.c:37
37          *p = 1;
(gdb) bt
Cannot access memory at address 0x8
(gdb) p $rbp
$1 = (void *) 0x0

bt無法獲取堆棧，在函數g()中RBP被改寫爲0，gdb從0偏移一個地址長度即0x8，嘗試從0x8內存位置獲取函數地址，然後提示Cannot access memory at address 0x8。

RBP出現了問題，我們就可以通過RSP來手動獲取調用堆棧。因爲RSP是不會被破壞的，要通過RSP獲取調用堆棧則需要偏移一些局部變量所佔的空間：

(gdb) p $rsp
$2 = (void *) 0x7fffffffe360
(gdb) x/8ag $rsp+16             # g()中局部變量佔16字節
0x7fffffffe370: 0x7fffffffe390  0x400631 <b(int, char**)+43>
0x7fffffffe380: 0x7fffffffe498  0x1a561cbc0
0x7fffffffe390: 0x7fffffffe3b0  0x40064f <main(int, char**)+27>
0x7fffffffe3a0: 0x7fffffffe498  0x100000000

基於以上就可以手工找到調用堆棧：

g()
0x400631 <b(int, char**)+43>
0x40064f <main(int, char**)+27>

上面的例子本質上也是破壞堆棧，並且僅僅破壞了保存了的RBP。在實際情況中，堆棧可能會被破壞得更多，則可能導致手動定位也較困難。

堆棧被破壞還可能導致更多的問題，例如覆蓋了函數返回地址，則會導致RIP錯誤；例如堆棧的不平衡。導致堆棧被破壞的原因也有很多，例如局部數組越界；delete/free棧上對象等。

omit-frame-pointer

使用RBP獲取調用堆棧相對比較容易。但現在編譯器都可以設置不使用RBP(gcc使用-fomit-frame-pointer，msvc使用/Oy)，對於函數而言不設置其RBP意味着可以節省若干條指令。在函數內部則完全使用RSP的偏移來定位局部變量，包括嵌套作用域裏的局部變量，即使程序實際運行時不會進入這個作用域。

例如：

void f2() {
    int a = 0x1234;
    if (a > 0) {
        int b = 0xff;
        b = a;
    }
}

gcc中使用-fomit-frame-pointer生成的代碼爲：

(gdb) disassemble f2
Dump of assembler code for function f2:
0x00000000004004a5 <f2+0>:      movl   $0x1234,-0x8(%rsp)    # int a = 0x1234
0x00000000004004ad <f2+8>:      cmpl   $0x0,-0x8(%rsp)       
0x00000000004004b2 <f2+13>:     jle    0x4004c4 <f2+31>      
0x00000000004004b4 <f2+15>:     movl   $0xff,-0x4(%rsp)      # int b = 0xff
0x00000000004004bc <f2+23>:     mov    -0x8(%rsp),%eax
0x00000000004004c0 <f2+27>:     mov    %eax,-0x4(%rsp)
0x00000000004004c4 <f2+31>:     retq

可以發現f2()沒有操作RBP之類的指令了。

發表評論

所有評論

還沒有人評論，想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.

C/C++中手動獲取調用堆棧

omit-frame-pointer

985 碩士程序員，空窗 4 個月沒有 Offer！

一文搞懂 Spring 循環依賴

賽博鬥地主——使用大語言模型扮演Agent智能體玩牌類遊戲。

VScode右鍵打開(添加到右鍵)

理解完成端口(IO completion port)

HGE使用GDI繪製中文字體

編寫content provider

Android: Activity、進程、BoradcastReceiver生命週期

似乎是新的開始

Mac下配置sublime實現LaTeX

https://yachay.unat.edu.pe/blog/index.php?comment_area=format_blog&comment_component=blog&comment_co

linux以太網驅動總結