CSDN | GitHub |
---|---|
Linux內核調試的方式以及工具集錦 | LDD-LinuxDeviceDrivers/study/debug |
本作品採用知識共享署名-非商業性使用-相同方式共享 4.0 國際許可協議進行許可, 轉載請註明出處, 謝謝合作
因本人技術水平和知識面有限, 內容如有紕漏或者需要修正的地方, 歡迎大家指正, 也歡迎大家提供一些其他好的調試工具以供收錄, 鄙人在此謝謝啦
"調試難度本來就是寫代碼的兩倍. 因此, 如果你寫代碼的時候聰明用盡, 根據定義, 你就沒有能耐去調試它了."
--Brian Kernighan
1 內核調試以及工具總結
內核總是那麼捉摸不透, 內核也會犯錯, 但是調試卻不能像用戶空間程序那樣, 爲此內核開發者爲我們提供了一系列的工具和系統來支持內核的調試.
內核的調試, 其本質是內核空間與用戶空間的數據交換, 內核開發者們提供了多樣的形式來完成這一功能.
工具 | 描述 |
---|---|
debugfs等文件系統 | 提供了 procfs , sysfs , debugfs 以及 relayfs 來與用戶空間進行數據交互, 尤其是 debugfs , 這是內核開發者們實現的專門用來調試的文件系統接口. 其他的工具或者接口, 多數都依賴於 debugfs . |
printk | 強大的輸出系統, 沒有什麼邏輯上的bug 是用PRINT 解決不了的 |
ftrace以及其前端工具trace-cmd等 | 內核提供了 ftrace 工具來實現檢查點, 事件等的檢測, 這一框架依賴於 debugfs , 他在 debugfs 中的 tracing 子系統中爲用戶提供了豐富的操作接口, 我們可以通過該系統對內核實現檢測和分析. 功能雖然強大, 但是其操作並不是很簡單, 因此使用者們爲實現了 trace-cmd 等前端工具, 簡化了 ftrace 的使用. |
kprobe 以及更強大的systemtap |
內核中實現的 krpobe 通過類似與代碼劫持一樣的技巧, 在內核的代碼或者函數執行前後, 強制加上某些調試信息, 可以很巧妙的完成調試工作, 這是一項先進的調試技術, 但是仍然有覺得它不夠好, 劫持代碼需要用驅動的方式編譯並加載, 能不能通過腳本的方式自動生成劫持代碼並自動加載和收集數據, 於是systemtap 出現了. 通過 systemtap 用戶只需要編寫腳本, 就可以完成調試並動態分析內核 |
kgdb && kgtp | KGDB 是大名鼎鼎的內核調試工具, KGTP 則通過驅動的方式強化了 gdb 的功能, 諸如tracepoint, 打印內核變量等. |
perf | erf Event 是一款隨 inux 內核代碼一同發佈和維護的性能診斷工具, 核社區維護和發展. Perf 不僅可以用於應用程序的性能統計分析, 也可以應用於內核代碼的性能統計和分析. 得益於其優秀的體系結構設計, 越來越多的新功能被加入 Perf , 使其已經成爲一個多功能的性能統計工具集 |
LTTng | LTTng 是一個 Linux 平臺開源的跟蹤工具, 是一套軟件組件, 可允許跟蹤 Linux 內核和用戶程序, 並控制跟蹤會話(開始/停止跟蹤、啓動/停止事件 等等). |
2 用戶空間與內核空間數據交換的文件系統
內核中有三個常用的僞文件系統: procfs, debugfs和sysfs.
文件系統 | 描述 |
---|---|
procfs | The proc filesystem is a pseudo-filesystem which provides an interface to kernel data structures. |
sysfs | The filesystem for exporting kernel objects. |
debugfs | Debugfs exists as a simple way for kernel developers to make information available to user space. |
relayfs | A significantly streamlined version of relayfs was recently accepted into the -mm kernel tree. |
它們都用於Linux內核和用戶空間的數據交換, 但是適用的場景有所差異:
procfs
歷史最早, 最初就是用來跟內核交互的唯一方式, 用來獲取處理器、內存、設備驅動、進程等各種信息.sysfs
跟kobject
框架緊密聯繫, 而kobject
是爲設備驅動模型而存在的, 所以sysfs
是爲設備驅動服務的.debugfs
從名字來看就是爲debug
而生, 所以更加靈活.relayfs
是一個快速的轉發(relay)
數據的文件系統, 它以其功能而得名. 它爲那些需要從內核空間轉發大量數據到用戶空間的工具和應用提供了快速有效的轉發機制.
在 Linux 下用戶空間與內核空間數據交換的方式, 第 2 部分: procfs、seq_file、debugfs和relayfs
Linux 文件系統:procfs, sysfs, debugfs 用法簡介
2.1 procfs文件系統
ProcFs
介紹`
procfs
是比較老的一種用戶態與內核態的數據交換方式, 內核的很多數據都是通過這種方式出口給用戶的, 內核的很多參數也是通過這種方式來讓用戶方便設置的. 除了 sysctl
出口到 /proc
下的參數, procfs
提供的大部分內核參數是隻讀的. 實際上, 很多應用嚴重地依賴於procfs, 因此它幾乎是必不可少的組件. 前面部分的幾個例子實際上已經使用它來出口內核數據, 但是並沒有講解如何使用, 本節將講解如何使用procfs
.
- 參考資料
2.2 sysfs文件系統
內核子系統或設備驅動可以直接編譯到內核, 也可以編譯成模塊, 編譯到內核, 使用前一節介紹的方法通過內核啓動參數來向它們傳遞參數, 如果編譯成模塊, 則可以通過命令行在插入模塊時傳遞參數, 或者在運行時, 通過 sysfs
來設置或讀取模塊數據.
Sysfs
是一個基於內存的文件系統, 實際上它基於ramfs
, sysfs
提供了一種把內核數據結構, 它們的屬性以及屬性與數據結構的聯繫開放給用戶態的方式, 它與 kobject
子系統緊密地結合在一起, 因此內核開發者不需要直接使用它, 而是內核的各個子系統使用它. 用戶要想使用 sysfs
讀取和設置內核參數, 僅需裝載 sysfs
就可以通過文件操作應用來讀取和設置內核通過 sysfs
開放給用戶的各個參數:
mkdir -p /sysfs
mount -t sysfs sysfs /sysfs
注意, 不要把 sysfs
和 sysctl
混淆, sysctl
是內核的一些控制參數, 其目的是方便用戶對內核的行爲進行控制, 而 sysfs
僅僅是把內核的 kobject
對象的層次關係與屬性開放給用戶查看, 因此 sysfs
的絕大部分是隻讀的, 模塊作爲一個 kobject
也被出口到 sysfs
, 模塊參數則是作爲模塊屬性出口的, 內核實現者爲模塊的使用提供了更靈活的方式, 允許用戶設置模塊參數在 sysfs
的可見性並允許用戶在編寫模塊時設置這些參數在 sysfs
下的訪問權限, 然後用戶就可以通過 sysfs
來查看和設置模塊參數, 從而使得用戶能在模塊運行時控制模塊行爲.
用戶空間與內核空間數據交換的方式(6)——模塊參數與sysfs
2.3 debugfs文件系統
內核開發者經常需要向用戶空間應用輸出一些調試信息, 在穩定的系統中可能根本不需要這些調試信息, 但是在開發過程中, 爲了搞清楚內核的行爲, 調試信息非常必要, printk可能是用的最多的, 但它並不是最好的, 調試信息只是在開發中用於調試, 而 printk
將一直輸出, 因此開發完畢後需要清除不必要的 printk
語句, 另外如果開發者希望用戶空間應用能夠改變內核行爲時, printk
就無法實現.
因此, 需要一種新的機制, 那只有在需要的時候使用, 它在需要時通過在一個虛擬文件系統中創建一個或多個文件來向用戶空間應用提供調試信息.
有幾種方式可以實現上述要求:
使用
procfs
, 在/proc
創建文件輸出調試信息, 但是procfs
對於大於一個內存頁(對於x86
是4K
)的輸出比較麻煩, 而且速度慢, 有時回出現一些意想不到的問題.使用
sysfs
(2.6
內核引入的新的虛擬文件系統), 在很多情況下, 調試信息可以存放在那裏, 但是sysfs主要用於系統管理,它希望每一個文件對應內核的一個變量,如果使用它輸出複雜的數據結構或調試信息是非常困難的.使用
libfs
創建一個新的文件系統, 該方法極其靈活, 開發者可以爲新文件系統設置一些規則, 使用libfs
使得創建新文件系統更加簡單, 但是仍然超出了一個開發者的想象.
爲了使得開發者更加容易使用這樣的機制, Greg Kroah-Hartman
開發了 debugfs
(在 2.6.11
中第一次引入), 它是一個虛擬文件系統, 專門用於輸出調試信息, 該文件系統非常小, 很容易使用, 可以在配置內核時選擇是否構件到內核中, 在不選擇它的情況下, 使用它提供的API的內核部分不需要做任何改動.
Debugging the Linux Kernel with debugfs
Linux 文件系統:procfs, sysfs, debugfs 用法簡介
2.4 relayfs文件系統
relayfs
是一個快速的轉發(relay
)數據的文件系統, 它以其功能而得名. 它爲那些需要從內核空間轉發大量數據到用戶空間的工具和應用提供了快速有效的轉發機制.
Channel
是 relayfs
文件系統定義的一個主要概念, 每一個 channel
由一組內核緩存組成, 每一個 CPU
有一個對應於該 channel
的內核緩存, 每一個內核緩存用一個在 relayfs
文件系統中的文件文件表示, 內核使用 relayfs
提供的寫函數把需要轉發給用戶空間的數據快速地寫入當前 CPU
上的 channel
內核緩存, 用戶空間應用通過標準的文件 I/
O函數在對應的 channel
文件中可以快速地取得這些被轉發出的數據 mmap
來. 寫入到 channel
中的數據的格式完全取決於內核中創建channel
的模塊或子系統.
relayfs
的用戶空間API
:
relayfs
實現了四個標準的文件 I/O
函數, open、mmap、poll和close
函數 | 描述 |
---|---|
open |
打開一個 channel 在某一個 CPU 上的緩存對應的文件. |
mmap |
把打開的 channel 緩存映射到調用者進程的內存空間. |
read |
讀取 channel 緩存, 隨後的讀操作將看不到被該函數消耗的字節, 如果 channel 的操作模式爲非覆蓋寫, 那麼用戶空間應用在有內核模塊寫時仍可以讀取, 但是如 channel 的操作模式爲覆蓋式, 那麼在讀操作期間如果有內核模塊進行寫,結果將無法預知, 因此對於覆蓋式寫的 channel , 用戶應當在確認在 channel 的寫完全結束後再進行讀. |
poll | 用於通知用戶空間應用轉發數據跨越了子緩存的邊界, 支持的輪詢標誌有 POLLIN 、POLLRDNORM 和 POLLERR |
close |
關閉 open 函數返回的文件描述符, 如果沒有進程或內核模塊打開該 channel 緩存, close 函數將釋放該channel 緩存 |
注意 : 用戶態應用在使用上述
API
時必須保證已經掛載了relayfs
文件系統, 但內核在創建和使用channel
時不需要relayfs
已經掛載. 下面命令將把relayfs
文件系統掛載到/mnt/relay
.
2.5 seq_file
一般地, 內核通過在 procfs
文件系統下建立文件來向用戶空間提供輸出信息, 用戶空間可以通過任何文本閱讀應用查看該文件信息, 但是 procfs
有一個缺陷, 如果輸出內容大於1個內存頁, 需要多次讀, 因此處理起來很難, 另外, 如果輸出太大, 速度比較慢, 有時會出現一些意想不到的情況, Alexander Viro
實現了一套新的功能, 使得內核輸出大文件信息更容易, 該功能出現在 2.4.15
(包括 2.4.15
)以後的所有 2.4
內核以及 2.6
內核中, 尤其是在 2.6
內核中,已經大量地使用了該功能
內核proc文件系統與seq接口(4)—seq_file接口編程淺析
3 printk
在內核調試技術之中, 最簡單的就是 printk
的使用了, 它的用法和C語言應用程序中的 printf
使用類似, 在應用程序中依靠的是 stdio.h
中的庫, 而在 linux
內核中沒有這個庫, 所以在 linux
內核中, 實現了自己的一套庫函數, printk
就是標準的輸出函數
4 ftrace && trace-cmd
4.1 trace && ftrace
Linux
當前版本中, 功能最強大的調試、跟蹤手段. 其最基本的功能是提供了動態和靜態探測點, 用於探測內核中指定位置上的相關信息.
靜態探測點, 是在內核代碼中調用 ftrace
提供的相應接口實現, 稱之爲靜態是因爲, 是在內核代碼中寫死的, 靜態編譯到內核代碼中的, 在內核編譯後, 就不能再動態修改. 在開啓 ftrace
相關的內核配置選項後, 內核中已經在一些關鍵的地方設置了靜態探測點, 需要使用時, 即可查看到相應的信息.
動態探測點, 基本原理爲 : 利用 mcount
機制, 在內核編譯時, 在每個函數入口保留數個字節, 然後在使用 ftrace
時, 將保留的字節替換爲需要的指令, 比如跳轉到需要的執行探測操作的代碼。
ftrace
的作用是幫助開發人員瞭解 Linux
內核的運行時行爲, 以便進行故障調試或性能分析.
最早 ftrace
是一個 function tracer
, 僅能夠記錄內核的函數調用流程. 如今 ftrace
已經成爲一個 framework
, 採用 plugin
的方式支持開發人員添加更多種類的 trace
功能.
Ftrace
由 RedHat
的 Steve Rostedt
負責維護. 到 2.6.30
爲止, 已經支持的 tracer
包括 :
Tracer | 描述 |
---|---|
Function tracer 和 Function graph tracer | 跟蹤函數調用 |
Schedule switch tracer | 跟蹤進程調度情況 |
Wakeup tracer | 跟蹤進程的調度延遲, 即高優先級進程從進入 ready 狀態到獲得 CPU 的延遲時間. 該 tracer 只針對實時進程 |
Irqsoff tracer | 當中斷被禁止時, 系統無法相應外部事件, 比如鍵盤和鼠標, 時鐘也無法產生 tick 中斷. 這意味着系統響應延遲, irqsoff 這個 tracer 能夠跟蹤並記錄內核中哪些函數禁止了中斷, 對於其中中斷禁止時間最長的, irqsoff 將在 log 文件的第一行標示出來, 從而使開發人員可以迅速定位造成響應延遲的罪魁禍首. |
Preemptoff tracer | 和前一個 tracer 類似, preemptoff tracer 跟蹤並記錄禁止內核搶佔的函數, 並清晰地顯示出禁止搶佔時間最長的內核函數. |
Preemptirqsoff tracer | 同上, 跟蹤和記錄禁止中斷或者禁止搶佔的內核函數, 以及禁止時間最長的函數. |
Branch tracer | 跟蹤內核程序中的 likely/unlikely 分支預測命中率情況. Branch tracer 能夠記錄這些分支語句有多少次預測成功. 從而爲優化程序提供線索. |
Hardware branch tracer | 利用處理器的分支跟蹤能力, 實現硬件級別的指令跳轉記錄. 在 x86 上, 主要利用了 BTS 這個特性. |
Initcall tracer | 記錄系統在 boot 階段所調用的 init call . |
Mmiotrace tracer | 記錄 memory map IO 的相關信息. |
Power tracer | 記錄系統電源管理相關的信息 |
Sysprof tracer | 缺省情況下, sysprof tracer 每隔 1 msec 對內核進行一次採樣,記錄函數調用和堆棧信息. |
Kernel memory tracer | 內存 tracer 主要用來跟蹤 slab allocator 的分配情況. 包括 kfree , kmem_cache_alloc 等 API 的調用情況, 用戶程序可以根據 tracer 收集到的信息分析內部碎片情況, 找出內存分配最頻繁的代碼片斷, 等等. |
Workqueue statistical tracer | 這是一個 statistic tracer , 統計系統中所有的 workqueue 的工作情況, 比如有多少個 work 被插入 workqueue , 多少個已經被執行等. 開發人員可以以此來決定具體的 workqueue 實現, 比如是使用 single threaded workqueue 還是 per cpu workqueue . |
Event tracer | 跟蹤系統事件, 比如 timer , 系統調用, 中斷等. |
這裏還沒有列出所有的 tracer
, ftrace
是目前非常活躍的開發領域, 新的 tracer
將不斷被加入內核。
ftrace和它的前端工具trace-cmd(深入瞭解Linux系統的利器)
4.2 ftrace前端工具trace-cmd
- trace-cmd 介紹
trace-cmd
和 開源的 kernelshark
均是內核Ftrace
的前段工具, 用於分分析核性能.
他們相當於是一個 /sys/kernel/debug/tracing
中文件系統接口的封裝, 爲用戶提供了更加直接和方便的操作.
- 使用
# 收集信息
sudo trace-cmd reord subsystem:tracing
# 解析結果
#sudo trace-cmd report
trace-cmd: A front-end for Ftrace
其本質就是對/sys/kernel/debug/tracing/events
下各個模塊進行操作, 收集數據並解析
5 Kprobe && systemtap
5.1 內核kprobe機制
kprobe
是 linux
內核的一個重要特性, 是一個輕量級的內核調試工具, 同時它又是其他一些更高級的內核調試工具(比如 perf
和 systemtap
)的 “基礎設施”, 4.0版本的內核中, 強大的 eBPF
特性也寄生於 kprobe
之上, 所以 kprobe
在內核中的地位就可見一斑了.
Kprobes
提供了一個強行進入任何內核例程並從中斷處理器無干擾地收集信息的接口. 使用 Kprobes
可以收集處理器寄存器和全局數據結構等調試信息。開發者甚至可以使用 Kprobes
來修改 寄存器值和全局數據結構的值.
如何高效地調試內核?
printk
是一種方法, 但是 printk
終歸是毫無選擇地全量輸出, 某些場景下不實用, 於是你可以試一下tracepoint
, 我使能 tracepoint
機制的時候才輸出. 對於傻傻地放置 printk
來輸出信息的方式, tracepoint
是個進步, 但是 tracepoint
只是內核在某些特定行爲(比如進程切換)上部署的一些靜態錨點, 這些錨點並不一定是你需要的, 所以你仍然需要自己部署tracepoint
, 重新編譯內核. 那麼 kprobe
的出現就很有必要了, 它可以在運行的內核中動態插入探測點, 執行你預定義的操作.
它的基本工作機制是 : 用戶指定一個探測點, 並把一個用戶定義的處理函數關聯到該探測點, 當內核執行到該探測點時, 相應的關聯函數被執行,然後繼續執行正常的代碼路徑.
kprobe
實現了三種類型的探測點 : kprobes
, jprobes
和 kretprobes
(也叫返回探測點). kprobes
是可以被插入到內核的任何指令位置的探測點, jprobes
則只能被插入到一個內核函數的入口, 而 kretprobes
則是在指定的內核函數返回時才被執行.
5.2 前端工具systemtap
SystemTap
是監控和跟蹤運行中的 Linux
內核的操作的動態方法. 這句話的關鍵詞是動態, 因爲 SystemTap
沒有使用工具構建一個特殊的內核, 而是允許您在運行時動態地安裝該工具. 它通過一個 Kprobes
的應用編程接口 (API
) 來實現該目的.
SystemTap
與一種名爲 DTrace
的老技術相似,該技術源於 Sun Solaris
操作系統. 在 DTrace
中, 開發人員可以用 D
編程語言(C
語言的子集, 但修改爲支持跟蹤行爲)編寫腳本. DTrace
腳本包含許多探針和相關聯的操作, 這些操作在探針 “觸發” 時發生. 例如, 探針可以表示簡單的系統調用,也可以表示更加複雜的交互,比如執行特定的代碼行
DTrace
是 Solaris
最引人注目的部分, 所以在其他操作系統中開發它並不奇怪. DTrace
是在 Common Development and Distribution License (CDDL)
之下發行的, 並且被移植到 FreeBSD
操作系統中.
另一個非常有用的內核跟蹤工具是 ProbeVue
, 它是 IBM
爲 IBM® AIX®
操作系統 6.1
開發的. 您可以使用 ProbeVue
探查系統的行爲和性能, 以及提供特定進程的詳細信息. 這個工具使用一個標準的內核以動態的方式進行跟蹤.
考慮到 DTrace
和 ProbeVue
在各自的操作系統中的巨大作用, 爲 Linux
操作系統策劃一個實現該功能的開源項目是勢不可擋的. SystemTap
從 2005
年開始開發, 它提供與 DTrace
和 ProbeVue
類似的功能. 許多社區還進一步完善了它, 包括 Red Hat
、Intel
、Hitachi
和 IBM
等.
這些解決方案在功能上都是類似的, 在觸發探針時使用探針和相關聯的操作腳本.
Linux 自檢和 SystemTap 用於動態內核分析的接口和語言
Brendan’s blog Using SystemTap
Linux 下的一個全新的性能測量和調式診斷工具 Systemtap, 第 3 部分: Systemtap
6 kgdb && kgtp
6.1 kgdb
- KDB 和 KGDB 合併, 並進入內核
KGDB
是大名鼎鼎的內核調試工具, 他是由 KDB
和 KGDB
項目合併而來.
kdb
是一個Linux系統的內核調試器, 它是由SGI公司開發的遵循GPL許可證的開放源碼調試工具. kdb
嵌入在Linux
內核中. 爲內核&&驅動程序員提供調試手段. 它適合於調試內核空間的程序代碼. 譬如進行設備驅動程序調試. 內核模塊的調試等.
kgdb
和 kdb
現在已經合併了. 對於一個正在運行的kgdb
而言, 可以使用 gdbmonitor
命令來使用 kdb
命令. 比如
(gdb)gdb monitor ps -A
就可以運行 kdb
的 ps
命令了.
分析一下 kdb
補丁和合入主線的 kdb
有啥不同
kdb
跟 kgdb
合併之後, 也可以使用 kgdb
的IO
驅動(比如鍵盤), 但是同時也 kdb
也喪失了一些功能. 合併之後的kdb
不在支持彙編級的源碼調試. 因此它現在也是平臺獨立的.
kdump和kexec已經被移除。
從/proc/meninfo中獲取的信息比以前少了。
bt命令現在使用的是內核的backtracer,而不是kdb原來使用的反彙編。
合併之後的kdb不在具有原來的反彙編(id命令)
總結一下 : kdb
和 kgdb
合併之後,系統中對這兩種調試方式幾乎沒有了明顯的界限,比如通過串口進行遠程訪問的時候,可以使用 kgdb
命令, 也可以使用 kdb
命令(使用gdb monitor實現)
6.2 KGTP
KGTP
是一個 實時 輕量級 Linux
調試器 和 跟蹤器. 使用 KGTP
使用 KGTP
不需要在 Linux
內核上打 PATCH
或者重新編譯, 只要編譯KGTP模塊並 insmod
就可以.
其讓 Linux
內核提供一個遠程 GDB
調試接口, 於是在本地或者遠程的主機上的GDB可以在不需要停止內核的情況下用 GDB tracepoint
和其他一些功能 調試 和 跟蹤 Linux
.
即使板子上沒有 GDB
而且其沒有可用的遠程接口, KGTP
也可以用離線調試的功能調試內核(見http://code.google.com/p/kgtp/wiki/HOWTOCN#/sys/kernel/debug/gtpframe和離線調試)。
KGTP支持 X86-32 , X86-64 , MIPS 和 ARM 。
KGTP在Linux內核 2.6.18到upstream 上都被測試過。
而且還可以用在 Android 上(見 HowToUseKGTPinAndroid)
KGTP中增加對GDB命令“set trace-buffer-size”的支持 - Week 5
7 perf
Perf
是用來進行軟件性能分析的工具。
通過它, 應用程序可以利用 PMU
, tracepoint
和內核中的特殊計數器來進行性能統計. 它不但可以分析指定應用程序的性能問題 (per thread
). 也可以用來分析內核的性能問題, 當然也可以同時分析應用代碼和內核,從而全面理解應用程序中的性能瓶頸.
最初的時候, 它叫做 Performance counter
, 在 2.6.31
中第一次亮相. 此後他成爲內核開發最爲活躍的一個領域. 在 2.6.32
中它正式改名爲 Performance Event
, 因爲 perf
已不再僅僅作爲 PMU
的抽象, 而是能夠處理所有的性能相關的事件.
使用 perf
, 您可以分析程序運行期間發生的硬件事件,比如 instructions retired
, processor clock cycles
等; 您也可以分析軟件事件, 比如 Page Fault
和進程切換。
這使得 Perf
擁有了衆多的性能分析能力, 舉例來說,使用 Perf
可以計算每個時鐘週期內的指令數, 稱爲 IPC
, IPC
偏低表明代碼沒有很好地利用 CPU
.
Perf
還可以對程序進行函數級別的採樣, 從而瞭解程序的性能瓶頸究竟在哪裏等等. Perf
還可以替代 strace
, 可以添加動態內核 probe
點. 還可以做 benchmark
衡量調度器的好壞.
人們或許會稱它爲進行性能分析的”瑞士軍刀”, 但我不喜歡這個比喻, 我覺得 perf
應該是一把世間少有的倚天劍.
金庸筆下的很多人都有對寶刀的癖好, 即便本領低微不配擁有, 但是喜歡, 便無可奈何. 我恐怕正如這些人一樣, 因此進了酒館客棧, 見到相熟或者不相熟的人, 就要興沖沖地要講講那倚天劍的故事.
改進版的perf, Performance analysis tools based on Linux perf_events (aka perf) and ftrace
8 其他Tracer工具
8.1 LTTng
LTTng
是一個 Linux
平臺開源的跟蹤工具, 是一套軟件組件, 可允許跟蹤 Linux
內核和用戶程序, 並控制跟蹤會話(開始/停止跟蹤、啓動/停止事件 等等). 這些組件被綁定如下三個包 :
包 | 描述 |
---|---|
LTTng-tools | 庫和用於跟蹤會話的命令行接口 |
LTTng-modules | 允許用 LTTng 跟蹤 Linux 的 Linux 內核模塊 |
LTTng-UST | 用戶空間跟蹤庫 |
8.2 eBPF
extended Berkeley Packet Filter(eBPF)是一個可以在事件上運行程序的高效內核虛擬機(JIT)。它可能最終會提供 ftrace 和 perf_events 的內核編程,並強化其他的 tracer。這是 Alexei Starovoitov 目前正在開發的,還沒有完全集成,但是從4.1開始已經對一些優秀的工具有足夠的內核支持了,如塊設備I/O的延遲熱圖。可參考其主要作者 Alexei Starovoitov 的BPF slides和eBPF samples。
8.3 Ktap
ktap 在過去是一款前景很好的 tracer,它使用內核中的 lua 虛擬機處理,在沒有調試信息的情況下在嵌入式設備上運行的很好。它分爲幾個步驟,並在有一段時間似乎超過了 Linux 上所有的追蹤器。然後 eBPF 開始進行內核集成,而 ktap 的集成在它可以使用 eBPF 替代它自己的虛擬機後纔開始。因爲 eBPF 仍將持續集成幾個月,ktap 開發者要繼續等上一段時間。我希??今年晚些時候它能重新開發。
8.4 dtrace4linux
dtrace4linux 主要是 Paul Fox 一個人在業餘時間完成的,它是 Sun DTrace 的 Linux 版本。它引入矚目,還有一些 provider 可以運行,但是從某種程度上來說還不完整,更多的是一種實驗性的工具(不安全)。我認爲,顧忌到許可問題,人們會小心翼翼的爲 dtrace4linux 貢獻代碼:由於當年 Sun 開源DTrace 使用的是 CDDL 協議,而 dtrace4linux 也不大可能最終進入 Linux kernel。Paul 的方法很可能會使其成爲一個 add-on。我很樂意看到 Linux 平臺上的 DTrace 和這個項目的完成,我認爲當我加入 Netflix 後將會花些時間來協助完成這個項目。然而,我還是要繼續使用內置的 tracers,如 ftrace 和 perf_events。
8.5 OL DTrace
Oracle Linux DTrace爲了將 DTrace 引入 Linux,特別是 Oracle Linux,做出了很大的努力。這些年來發布的多個版本表明了它的穩定進展。開發者們以一種對這個項目的前景看好的態度談論着改進 DTrace 測試套件。很多有用的 provider 已經完成了,如:syscall, profile, sdt, proc, sched 以及 USDT。我很期待 fbt(function boundary tracing, 用於內核動態跟蹤)的完成,它是 Linux 內核上非常棒的 provider。OL DTrace 最終的成功將取決於人們對運行 Oracle Linux(爲技術支持付費)有多大興趣,另一方面取決於它是否完全開源:它的內核元件是開源的,而我沒有看到它的用戶級別代碼。
8.6 sysdig
sysdig是一個使用類tcpdump語法來操作系統事件的新tracer,它使用lua提交進程。它很優秀,它見證了系統跟蹤領域的變革。它的侷限性在於它只在當前進行系統調用,在提交進行時將所有事件轉儲爲用戶級別。你可以使用系統調用做很多事情,然而我還是很希望它能支持跟蹤點、kprobe和uprobe。我還期待它能支持eBPF做內核摘要。目前,sysdig開發者正在增加容器支持。留意這些內容。
本作品採用知識共享署名-非商業性使用-相同方式共享 4.0 國際許可協議進行許可, 轉載請註明出處, 謝謝合作.
因本人技術水平和知識面有限, 內容如有紕漏或者需要修正的地方, 歡迎大家指正, 也歡迎大家提供一些其他好的調試工具以供收錄, 鄙人在此謝謝啦