如何定位Android NDK開發中遇到的錯誤

如何定位Android NDK開發中遇到的錯誤


摘要:Android NDK中的錯誤定位對很多開發者來說是一件頭疼的事,本文通過一個Demo程序詳細講解了NDK的錯誤是如何產生的,以及如何通過命令行工具定位NDK的問題所在。

Android NDK是什麼?

Android NDK 是在SDK前面又加上了“原生”二字,即Native Development Kit,因此又被Google稱爲“NDK”。衆所周知,Android程序運行在Dalvik虛擬機中,NDK允許用戶使用類似C / C++之類的原生代碼語言執行部分程序。NDK包括:

  • 從C / C++生成原生代碼庫所需要的工具和build files;
  • 將一致的原生庫嵌入可以在Android設備上部署的應用程序包文件(application packages files ,即.apk文件)中;
  • 支持所有未來Android平臺的一系列原生系統頭文件和庫。

爲何要用到NDK?概括來說主要分爲以下幾種情況:

  • 代碼保護,由於APK的Java層代碼很容易被反編譯,而C/C++庫反匯難度較大;
  • 在NDK中調用第三方C/C++庫,因爲大部分的開源庫都是用C/C++代碼編寫的;
  • 便於移植,用C/C++寫的庫可以方便地在其他的嵌入式平臺上再次使用。

Android JNI與NDK的關係

Java Native Interface(JNI)標準是Java平臺的一部分,它允許Java代碼和其他語言寫的代碼進行交互。JNI是本地編程接口,它使得在Java虛擬機(VM)內部運行的Java代碼能夠與用其它編程語言(如C、C++和彙編語言)編寫的應用程序和庫進行交互操作。

簡單來說,可以認爲NDK就是能夠方便快捷開發.so文件的工具。JNI的過程比較複雜,生成.so需要大量操作,而NDK的作用則是簡化了這個過程。

哪些常見的NDK類型異常會導致程序Crash?

NDK編譯生成的.so文件作爲程序的一部分,在運行發生異常時同樣會造成程序崩潰。不同於Java代碼異常造成的程序崩潰,在NDK的異常發生時,程序在Android設備上都會立即退出,即通常所說的閃退,而不會彈出“程序xxx無響應,是否立即關閉”之類的提示框。

NDK是使用C/C++來進行開發的,熟悉C/C++的程序員都知道,指針和內存管理是最重要也是最容易出問題的地方,稍有不慎就會遇到諸如內存無效訪問、無效對象、內存泄露、堆棧溢出等常見的問題,最後都是同一個結果:程序崩潰。例如我們常說的空指針錯誤,就是當一個內存指針被置爲空(NULL)之後再次對其進行訪問;另外一個經常出現的錯誤是,在程序的某個位置釋放了某個內存空間,而後在程序的其他位置試圖訪問該內存地址,這就會產生無效地址錯誤。常見的錯誤類型如下:

  • 初始化錯誤;
  • 訪問錯誤;
  • 內存泄露;
  • 參數錯誤;
  • 堆棧溢出;
  • 類型轉換錯誤;
  • 數字除0錯誤。

如何發現並解決NDK錯誤?

利用Android NDK開發本地應用時,幾乎所有的程序員都遇到過程序崩潰的問題,但它的崩潰會在logcat中打印一堆看起來類似天書的堆棧信息,讓人舉足無措。單靠添加一行行的打印信息來定位錯誤代碼做在的行數,無疑是一件令人崩潰的事情。在網上搜索“Android NDK崩潰”,可以搜索到很多文章來介紹如何通過Android提供的工具來查找和定位NDK的錯誤,但大都晦澀難懂。下面以一個實際的例子來說明,如何通過兩種不同的方法,來定位錯誤的函數名和代碼行。

首先,來看看我們在hello-jni程序的代碼中做了什麼(有關如何創建或導入工程,此處略),下面代碼中:在JNI_OnLoad()的函數中,即so加載時,調用willCrash()函數,而在willCrash()函數中, std::string的這種賦值方法會產生一個空指針錯誤。這樣,在hello-jni程序加載時就會閃退。我們記一下這兩個行數:在61行調用了willCrash()函數;在69行發生了崩潰。

下面我們來看看發生崩潰(閃退)時系統打印的logcat日誌:

如果你看過logcat打印的NDK錯誤的日誌就會知道,我省略了後面很多的內容,很多人看到這麼多密密麻麻的日誌就已經頭暈腦脹了,即使是很多資深的Android開發者,在面對NDK日誌時也大都默默地選擇了無視。

其實,只要你細心的查看,再配合Google 提供的工具,完全可以快速地準確定位出錯的代碼位置,這個工作我們稱之爲“符號化”。需要注意的是,如果要對NDK錯誤進行符號化的工作,需要保留編譯過程中產生的包含符號表的so文件,這些文件一般保存在$PROJECT_PATH/obj/local/目錄下。

第一種方法:ndk-stack

這個命令行工具包含在NDK工具的安裝目錄,和ndk-build及其他常用的一些NDK命令放在一起,比如在我的電腦上,其位置是/android-ndk-r9d/ndk-stack。根據Google官方文檔,NDK從r6版本開始提供ndk-stack命令,如果你用的之前的版本,建議還是儘快升級至最新的版本。使用ndk –stack命令也有兩種方式

實時分析日誌

在運行程序的同時,使用adb獲取logcat日誌,並通過管道符輸出給ndk-stack,同時需要指定包含符號表的so文件位置;如果你的程序包含了多種CPU架構,在這裏需求根據錯誤發生時的手機CPU類型,選擇不同的CPU架構目錄,如:

當崩潰發生時,會得到如下的信息:

我們重點看一下#03和#04,這兩行都是在我們自己生成的libhello-jni.so中的報錯信息,因此會發現如下關鍵信息:

回想一下我們的代碼,在JNI_OnLoad()函數中(第61行),我們調用了willCrash()函數;在willCrash()函數中(第69行),我們製造了一個錯誤。這些信息都被準確無誤的提取了出來!是不是非常簡單?

先獲取日誌再分析

這種方法其實和上面的方法沒有什麼大的區別,僅僅是logcat日誌獲取的方式不同。可以在程序運行的過程中將logcat日誌保存到一個文件,甚至可以在崩潰發生時,快速的將logcat日誌保存起來,然後再進行分析,比上面的方法稍微靈活一點,而且日誌可以留待以後繼續分析。

第二種方法:使用addr2line和objdump命令

這個方法適用於那些不滿足於上述ndk-stack的簡單用法,而喜歡刨根問底的程序員們,這兩個方法可以揭示ndk-stack命令的工作原理是什麼,儘管用起來稍微麻煩一點,但可以稍稍滿足一下程序員的好奇心。

先簡單說一下這兩個命令,在絕大部分的Linux發行版本中都能找到他們,如果你的操作系統是Linux,而你測試手機使用的是Intel x86系列,那麼你使用系統中自帶的命令就可以了。然而,如果僅僅是這樣,那麼絕大多數人要絕望了,因爲恰恰大部分開發者使用的是Windows,而手機很有可能是armeabi系列。

在NDK中自帶了適用於各個操作系統和CPU架構的工具鏈,其中就包含了這兩個命令,只不過名字稍有變化,你可以在NDK目錄的toolchains目錄下找到他們。以我的Mac電腦爲例,如果我要找的是適用於armeabi架構的工具,那麼他們分別爲arm-linux-androideabi-addr2line和arm-linux-androideabi-objdump;位置在下面目錄中,後續介紹中將省略此位置:

假設你的電腦是Windows系統,CPU架構爲mips,那麼你要的工具可能包含在一下目錄中:

接下來就讓我們來看看如何使用這兩個工具,下面具體介紹。

找到日誌中的關鍵函數指針

其實很簡單,就是找到backtrace信息中,屬於我們自己的so文件報錯的行。

首先要找到backtrace信息,有的手機會明確打印一行backtrace(比如我們這次使用的手機),那麼這一行下面的一系列以“#兩位數字 pc”開頭的行就是backtrace信息了。有時可能有的手機並不會打印一行backtrace,那麼只要找到一段以“#兩位數字 pc ”開頭的行,就可以了。

其次要找到屬於自己的so文件報錯的行,這就比較簡單了。找到這些行之後,記下這些行中的函數地址。

使用addr2line查找代碼位置

執行如下的命令,多個指針地址可以在一個命令中帶入,以空格隔開即可


結果如下:

從addr2line的結果就能看到,我們拿到了我們自己的錯誤代碼的調用關係和行數,在hello-jni.cpp的69行和61行(另外兩行因爲使用的是標準函數,可以忽略掉),結果和ndk-stack是一致的,說明ndk-stack也是通過addr2line來獲取代碼位置的。

使用objdump獲取函數信息

通過addr2line命令,其實我們已經找到了我們代碼中出錯的位置,已經可以幫助程序員定位問題所在了。但是,這個方法只能獲取代碼行數,並沒有顯示函數信息,顯得不那麼“完美”,對於追求極致的程序員來說,這當然是不夠的。下面我們就演示一下怎麼來定位函數信息。

首先使用如下命令導出函數表:

在生成的asm文件中查找剛剛我們定位的兩個關鍵指針00004fb4和00004f58:

從這兩張圖可以清楚的看到(要注意的是,在不同的NDK版本和不同的操作系統中,asm文件的格式不是完全相同,但都大同小異,請大家仔細比對),這兩個指針分別屬於willCrash()和JNI_OnLoad()函數,再結合剛纔addr2line的結果,那麼這兩個地址分別對應的信息就是:

相當完美,和ndk-stack得到的信息完全一致!

Testin崩潰分析如何幫開發者發現NDK錯誤

以上提到的方法,只適合在開發測試期間,如果你的應用或遊戲已經上線,而用戶經常反饋說崩潰、閃退,指望用戶幫你收集信息定位問題幾乎是不可能的。這個時候,我們就需要用其他的手段來捕獲崩潰信息。

目前業界已經有一些公司推出了崩潰信息收集的服務,通過嵌入SDK,在程序發生崩潰時收集堆棧信息,發送到雲服務平臺,從而幫助開發者定位錯誤信息。在這方面,國內的Testin和國外的crittercism都可以提供類似服務。

Testin從1.4版本開始支持NDK的崩潰分析,其最新版本已升級到1.7。當程序發生NDK錯誤時,其內嵌的SDK會收集程序在用戶手機上發生崩潰時的堆棧信息(主要就是上面我們通過logcat日誌獲取到的函數指針)、設備信息、線程信息等,SDK將這些信息上報至Testin雲服務平臺,在平臺進行唯一性的處理、並可以自定義時段進行詳盡的統計分析,從多維度展示程序崩潰的信息和嚴重程度;最新版本還支持用戶自定義場景,方便開發者定位問題所在。

從用戶手機上報的堆棧信息,Testin爲NDK崩潰提供了符號化的功能,只要將我們編譯過程中產生的包含符號表的so文件上傳,就可以自動將函數指針地址定位到函數名稱和代碼行數。符號化之後,看起來就和我們前面在本地測試的結果是一樣的了,一目瞭然。而且使用這個功能還有一個好處:這些包含符號表的so文件,在每次開發者編譯之後都會改變,很有可能我們發佈之後就已經變了,因爲開發者會修改程序。在這樣的情況下,即使我們拿到了崩潰時的堆棧信息,那也無法再進行符號化了。我們可以將這些文件上傳到Testin進行符號化的工作,Testin會爲我們保存和管理不同版本的so文件,確保信息不會丟失。

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章