如何定位Android NDK開發中遇到的錯誤

摘要：Android NDK中的錯誤定位對很多開發者來說是一件頭疼的事，本文通過一個Demo程序詳細講解了NDK的錯誤是如何產生的，以及如何通過命令行工具定位NDK的問題所在。

Android NDK是什麼？

Android NDK 是在SDK前面又加上了“原生”二字，即Native Development Kit，因此又被Google稱爲“NDK”。衆所周知，Android程序運行在Dalvik虛擬機中，NDK允許用戶使用類似C / C++之類的原生代碼語言執行部分程序。NDK包括：

從C / C++生成原生代碼庫所需要的工具和build files；

將一致的原生庫嵌入可以在Android設備上部署的應用程序包文件（application packages files ，即.apk文件）中；

支持所有未來Android平臺的一系列原生系統頭文件和庫。

爲何要用到NDK？概括來說主要分爲以下幾種情況：

代碼保護，由於APK的Java層代碼很容易被反編譯，而C/C++庫反匯難度較大；

在NDK中調用第三方C/C++庫，因爲大部分的開源庫都是用C/C++代碼編寫的；

便於移植，用C/C++寫的庫可以方便地在其他的嵌入式平臺上再次使用。

Android JNI與NDK的關係

Java Native Interface（JNI）標準是Java平臺的一部分，它允許Java代碼和其他語言寫的代碼進行交互。JNI是本地編程接口，它使得在Java虛擬機（VM）內部運行的Java代碼能夠與用其它編程語言（如C、C++和彙編語言）編寫的應用程序和庫進行交互操作。

簡單來說，可以認爲NDK就是能夠方便快捷開發.so文件的工具。JNI的過程比較複雜，生成.so需要大量操作，而NDK的作用則是簡化了這個過程。

哪些常見的NDK類型異常會導致程序Crash？

NDK編譯生成的.so文件作爲程序的一部分，在運行發生異常時同樣會造成程序崩潰。不同於Java代碼異常造成的程序崩潰，在NDK的異常發生時，程序在Android設備上都會立即退出，即通常所說的閃退，而不會彈出“程序xxx無響應，是否立即關閉”之類的提示框。

NDK是使用C/C++來進行開發的，熟悉C/C++的程序員都知道，指針和內存管理是最重要也是最容易出問題的地方，稍有不慎就會遇到諸如內存無效訪問、無效對象、內存泄露、堆棧溢出等常見的問題，最後都是同一個結果：程序崩潰。例如我們常說的空指針錯誤，就是當一個內存指針被置爲空（NULL）之後再次對其進行訪問；另外一個經常出現的錯誤是，在程序的某個位置釋放了某個內存空間，而後在程序的其他位置試圖訪問該內存地址，這就會產生無效地址錯誤。常見的錯誤類型如下：

初始化錯誤；

訪問錯誤；

內存泄露；

參數錯誤；

堆棧溢出；

類型轉換錯誤；

數字除0錯誤。

如何發現並解決NDK錯誤？

利用Android NDK開發本地應用時，幾乎所有的程序員都遇到過程序崩潰的問題，但它的崩潰會在logcat中打印一堆看起來類似天書的堆棧信息，讓人舉足無措。單靠添加一行行的打印信息來定位錯誤代碼做在的行數，無疑是一件令人崩潰的事情。在網上搜索“Android NDK崩潰”，可以搜索到很多文章來介紹如何通過Android提供的工具來查找和定位NDK的錯誤，但大都晦澀難懂。下面以一個實際的例子來說明，如何通過兩種不同的方法，來定位錯誤的函數名和代碼行。

首先，來看看我們在hello-jni程序的代碼中做了什麼（有關如何創建或導入工程，此處略），下面代碼中：在JNI_OnLoad()的函數中，即so加載時，調用willCrash()函數，而在willCrash()函數中， std::string的這種賦值方法會產生一個空指針錯誤。這樣，在hello-jni程序加載時就會閃退。我們記一下這兩個行數：在61行調用了willCrash()函數；在69行發生了崩潰。

下面我們來看看發生崩潰（閃退）時系統打印的logcat日誌：

如果你看過logcat打印的NDK錯誤的日誌就會知道，我省略了後面很多的內容，很多人看到這麼多密密麻麻的日誌就已經頭暈腦脹了，即使是很多資深的Android開發者，在面對NDK日誌時也大都默默地選擇了無視。

其實，只要你細心的查看，再配合Google 提供的工具，完全可以快速地準確定位出錯的代碼位置，這個工作我們稱之爲“符號化”。需要注意的是，如果要對NDK錯誤進行符號化的工作，需要保留編譯過程中產生的包含符號表的so文件，這些文件一般保存在$PROJECT_PATH/obj/local/目錄下。

第一種方法：ndk-stack

這個命令行工具包含在NDK工具的安裝目錄，和ndk-build及其他常用的一些NDK命令放在一起，比如在我的電腦上，其位置是/android-ndk-r9d/ndk-stack。根據Google官方文檔，NDK從r6版本開始提供ndk-stack命令，如果你用的之前的版本，建議還是儘快升級至最新的版本。使用ndk –stack命令也有兩種方式

實時分析日誌

在運行程序的同時，使用adb獲取logcat日誌，並通過管道符輸出給ndk-stack，同時需要指定包含符號表的so文件位置；如果你的程序包含了多種CPU架構，在這裏需求根據錯誤發生時的手機CPU類型，選擇不同的CPU架構目錄，如：

當崩潰發生時，會得到如下的信息：

我們重點看一下#03和#04，這兩行都是在我們自己生成的libhello-jni.so中的報錯信息，因此會發現如下關鍵信息：

回想一下我們的代碼，在JNI_OnLoad()函數中（第61行），我們調用了willCrash()函數；在willCrash()函數中（第69行），我們製造了一個錯誤。這些信息都被準確無誤的提取了出來！是不是非常簡單？

先獲取日誌再分析

這種方法其實和上面的方法沒有什麼大的區別，僅僅是logcat日誌獲取的方式不同。可以在程序運行的過程中將logcat日誌保存到一個文件，甚至可以在崩潰發生時，快速的將logcat日誌保存起來，然後再進行分析，比上面的方法稍微靈活一點，而且日誌可以留待以後繼續分析。

第二種方法：使用addr2line和objdump命令

這個方法適用於那些不滿足於上述ndk-stack的簡單用法，而喜歡刨根問底的程序員們，這兩個方法可以揭示ndk-stack命令的工作原理是什麼，儘管用起來稍微麻煩一點，但可以稍稍滿足一下程序員的好奇心。

先簡單說一下這兩個命令，在絕大部分的Linux發行版本中都能找到他們，如果你的操作系統是Linux，而你測試手機使用的是Intel x86系列，那麼你使用系統中自帶的命令就可以了。然而，如果僅僅是這樣，那麼絕大多數人要絕望了，因爲恰恰大部分開發者使用的是Windows，而手機很有可能是armeabi系列。

在NDK中自帶了適用於各個操作系統和CPU架構的工具鏈，其中就包含了這兩個命令，只不過名字稍有變化，你可以在NDK目錄的toolchains目錄下找到他們。以我的Mac電腦爲例，如果我要找的是適用於armeabi架構的工具，那麼他們分別爲arm-linux-androideabi-addr2line和arm-linux-androideabi-objdump；位置在下面目錄中，後續介紹中將省略此位置：

假設你的電腦是Windows系統，CPU架構爲mips，那麼你要的工具可能包含在一下目錄中：

接下來就讓我們來看看如何使用這兩個工具，下面具體介紹。

找到日誌中的關鍵函數指針

其實很簡單，就是找到backtrace信息中，屬於我們自己的so文件報錯的行。

首先要找到backtrace信息，有的手機會明確打印一行backtrace（比如我們這次使用的手機），那麼這一行下面的一系列以“#兩位數字 pc”開頭的行就是backtrace信息了。有時可能有的手機並不會打印一行backtrace，那麼只要找到一段以“#兩位數字 pc ”開頭的行，就可以了。

其次要找到屬於自己的so文件報錯的行，這就比較簡單了。找到這些行之後，記下這些行中的函數地址。

使用addr2line查找代碼位置

執行如下的命令，多個指針地址可以在一個命令中帶入，以空格隔開即可

結果如下：

從addr2line的結果就能看到，我們拿到了我們自己的錯誤代碼的調用關係和行數，在hello-jni.cpp的69行和61行（另外兩行因爲使用的是標準函數，可以忽略掉），結果和ndk-stack是一致的，說明ndk-stack也是通過addr2line來獲取代碼位置的。

使用objdump獲取函數信息

通過addr2line命令，其實我們已經找到了我們代碼中出錯的位置，已經可以幫助程序員定位問題所在了。但是，這個方法只能獲取代碼行數，並沒有顯示函數信息，顯得不那麼“完美”，對於追求極致的程序員來說，這當然是不夠的。下面我們就演示一下怎麼來定位函數信息。

首先使用如下命令導出函數表：

在生成的asm文件中查找剛剛我們定位的兩個關鍵指針00004fb4和00004f58：

從這兩張圖可以清楚的看到（要注意的是，在不同的NDK版本和不同的操作系統中，asm文件的格式不是完全相同，但都大同小異，請大家仔細比對），這兩個指針分別屬於willCrash()和JNI_OnLoad()函數，再結合剛纔addr2line的結果，那麼這兩個地址分別對應的信息就是：

相當完美，和ndk-stack得到的信息完全一致！

Testin崩潰分析如何幫開發者發現NDK錯誤

以上提到的方法，只適合在開發測試期間，如果你的應用或遊戲已經上線，而用戶經常反饋說崩潰、閃退，指望用戶幫你收集信息定位問題幾乎是不可能的。這個時候，我們就需要用其他的手段來捕獲崩潰信息。

目前業界已經有一些公司推出了崩潰信息收集的服務，通過嵌入SDK，在程序發生崩潰時收集堆棧信息，發送到雲服務平臺，從而幫助開發者定位錯誤信息。在這方面，國內的Testin和國外的crittercism都可以提供類似服務。

Testin從1.4版本開始支持NDK的崩潰分析，其最新版本已升級到1.7。當程序發生NDK錯誤時，其內嵌的SDK會收集程序在用戶手機上發生崩潰時的堆棧信息（主要就是上面我們通過logcat日誌獲取到的函數指針）、設備信息、線程信息等，SDK將這些信息上報至Testin雲服務平臺，在平臺進行唯一性的處理、並可以自定義時段進行詳盡的統計分析，從多維度展示程序崩潰的信息和嚴重程度；最新版本還支持用戶自定義場景，方便開發者定位問題所在。

從用戶手機上報的堆棧信息，Testin爲NDK崩潰提供了符號化的功能，只要將我們編譯過程中產生的包含符號表的so文件上傳，就可以自動將函數指針地址定位到函數名稱和代碼行數。符號化之後，看起來就和我們前面在本地測試的結果是一樣的了，一目瞭然。而且使用這個功能還有一個好處：這些包含符號表的so文件，在每次開發者編譯之後都會改變，很有可能我們發佈之後就已經變了，因爲開發者會修改程序。在這樣的情況下，即使我們拿到了崩潰時的堆棧信息，那也無法再進行符號化了。我們可以將這些文件上傳到Testin進行符號化的工作，Testin會爲我們保存和管理不同版本的so文件，確保信息不會丟失。

如何定位Android NDK開發中遇到的錯誤

如何定位Android NDK開發中遇到的錯誤

Android NDK是什麼？

Android JNI與NDK的關係

哪些常見的NDK類型異常會導致程序Crash？

如何發現並解決NDK錯誤？

第一種方法：ndk-stack

實時分析日誌

先獲取日誌再分析

第二種方法：使用addr2line和objdump命令

找到日誌中的關鍵函數指針

使用addr2line查找代碼位置

使用objdump獲取函數信息

Testin崩潰分析如何幫開發者發現NDK錯誤

01 穩定性（一）如何應對事故並做好覆盤？

一鍵自動化博客發佈工具,用過的人都說好(頭條篇)

Stream流常用方法總結

蒐集整理鏈表的簡單操作

FragmentActivity添加Fragment的使用

Java反射的DEMO

HTTP POST請求在Volly工廠關於需要鑑權的請求部分代碼包含了處理圖片實現ImageLoder法

Post請求鑑權中獲取頭部的方法

https://yachay.unat.edu.pe/blog/index.php?comment_area=format_blog&comment_component=blog&comment_co

linux以太網驅動總結