如何減少編碼、測試和調試三個階段的bug？

關注、星標公衆號，不錯過精彩內容

來源：EDN電子技術設計

編輯整理：strongerHuang

開發一個項目不是說編碼時間短，項目就完成的更快。也不是測試、調試時間短項目整體就快。其實，三者是息息相關的。如果編碼的只顧編碼、測試的只顧測試，那麼項目週期將是遙遙無期。

前不久給大家分享了一篇關於《嵌入式軟件測試的10條祕訣》講述了測試相關的內容，今天來聽一位資深工程講述如何減少編碼、測試和調試三個階段的bug。

一、會導致難點bug的問題

1.事件順序

在處理事件時，提出下列問題會很有成效：事件可以以不同的順序到達嗎？如果我們沒有接收到此事件會怎麼樣？如果此事件接連發生兩次會怎麼樣？哪怕通常不會發生，但系統（或交互系統）其他部分的bug可能會導致事件發生呢。

2.過早

這是第一點“事件順序”的一個特例，但它確實會引起一些棘手的bug，因此我把它單獨拎出來說明。例如，如果信令消息在配置和啓動程序完成之前就被過早接收，那麼可能就會有很多奇怪的行爲發生。另一個例子：連接在被放進空閒列表之前就被標記爲down。在調試這類問題時，我們總是假定在空閒列表中的時候連接被設置爲down（但當時爲什麼不把它放到列表外面呢？）。這是我們思考的不足，沒有考慮到有時候事情會過早發生。

3.悄無聲息的故障

一些最難跟蹤的bug有部分是由那些靜靜失敗並擴展而不是拋出錯誤的代碼所導致的。例如，沒有檢查代碼卻返回錯誤的系統調用（如bind）。又如：解析代碼在它遇到錯誤元素的時候只是返回而非拋出錯誤。在錯誤狀態中持續了一段時間的調用，會使調試變得更難。最好一旦檢測到故障就返回錯誤。

4.if

有若干條件的if語句，if (a 或 b) ，特別是當有鏈接的時候， if (x) else if (y)，都給我引發了很多bug。即使if語句在概念上很簡單，但當有多個條件要跟蹤的時候依然很容易出錯。這些天，我嘗試重寫代碼使之更簡單，以避免處理複雜的if語句。

5.else

有一些bug是因爲沒有正確考慮到如果條件爲false時會發生什麼而引起的。幾乎在所有的情況下，都應該有一個else部分來應對每一條if語句。此外，如果你在if語句的分支中設置變量，那麼或許你在另一個分支中也要設置。與此種情況相關的是標記被設置的情況。只添加用於設置的標記的條件不難，但是很容易忘了添加當標記應該再次重置時的條件。留下一個永遠設置的標誌可能會導致之後接連不斷的bug。

6.改變假設

許多一開始最難預防的bug是因爲改變了假設所造成的。例如，在開始時，可能每天只有一個客戶事件。於是很多代碼是在這樣的假設下寫下的。但是後來，設計改變了，允許每天有多個客戶事件了。發生這種情況時，很難改變新設計影響到的所有情況。找到關於改變的所有顯式依賴關係不難，難的是要找到所有隱性依賴於舊的設計的情況。例如，可能會有獲取給定某一天所有客戶事件的代碼。其中的隱含假設是結果集永遠不會超過客戶的數量。關於這方面的問題我也沒有很好的策略方法，如果各位有的話，還請不吝賜教。

7.日誌記錄

可視化程序做什麼至關重要，特別是當邏輯很複雜的時候。確保補充足夠多的（但不要太多）日誌記錄，這樣你就可以說明爲什麼程序要這麼做。如果一切正常，那也沒關係，但要是有問題發生，你會很慶幸自己添加了這些日誌。

二、測試

作爲一個開發人員，直到要測試了我纔會去處理功能。至少，這意味着每一行新的或改變了的代碼行至少已經被執行過一次。此外，單元測試和功能測試都很不錯，但還不夠。新的功能也必須進行測試，並在類似於產品的環境中探索。只有這樣，我才能說我完成了一個功能。下面是我經歷過的bug所教會我的關於測試的一些重要的經驗教訓：

1.零和null

如果可行的話，確保總是用零和null來測試。對於字符串，這意味着要測試長度爲零的字符串以及字符串爲null兩種情況。又如：測試TCP連接的斷開，要在發送數據給它發送之前。不使用這些組合方法測試是導致bug出現的首位原因。

2.添加和刪除

通常，新的功能包括能夠添加新的配置到系統中——例如，一個用於手機號碼轉換的新的配置文件。測試它能否添加新的配置文件是很自然的。但是，我發現我們很容易忘記去測試刪除配置文件是不是同樣ok。

3.錯誤處理

處理錯誤的代碼往往是難以測試的。最好有能檢查錯誤處理代碼的自動測試，但有時這是不可能的。我有時會使用的一招是臨時修改代碼，使得錯誤處理代碼運行起來。要做到這一點最簡單的方法是反轉if語句——例如，從if error_count > 0改成error_count == 0。另一個例子是拼錯數據庫列名，從而導致期望的錯誤處理代碼運行。

4.隨機輸入

通常，揭露bug測試的一種測試方法是使用隨機輸入。例如，H.323協議的ASN.1解碼使用二進制數據操作。通過發送隨機字節去解碼，我們發現瞭解碼器中的幾個bug。另一個例子是用測試呼叫來生成腳本，此時呼叫持續時間，接聽延遲，第一方掛斷等等都是隨機生成的。這些測試腳本會暴露許多bug，特別是一起發生的事件會產生併攏干擾。

5.檢查不應該發生的動作

通常測試包括檢查期望動作是不是發生了。但我們很容易忽視相反的情況——忘記檢查不應該發生的動作是不是的確沒有發生。

6.擁有工具

我創建了自己的小工具，以使得測試更加簡單。例如，當我用VoIP SIP協議工作時，我寫了一個能夠用正是我想要的標題和值回覆的小腳本。這個工具使得測試很多邊界情況變得容易起來。另一個例子是可以進行API調用的一個命令行工具。通過啓動逐漸添加所需小功能，我得到了一些非常有用的工具。自己寫工具的好處是，我得到的正是我想要的。

在測試中發現所有的bug，那絕對是不可能的。有一個案例中，我更改了數字相關性的處理，數字由兩個部分組成：路由地址前綴（通常是不變的），以及從000到999動態分配的數字。問題在於當找到相關性時，動態分配的數字的第一個數字會在呈現在表格中之前遭到誤刪。也就是說637變成了37。這意味着，到100之前它都是可以工作的，因此，前面100個電話是正常的，但是接下來的900個都是失敗。所以，除非我在重新啓動之前能夠測試超過100次（事實是我沒有），否則我在測試時就不會發現這個問題。

三、調試

1.討論

幫助我最多的調試技術是與同事討論問題。通常情況下，只是和同事說明問題，就會讓我意識到問題的癥結。此外，即使他們不是很熟悉有問題的代碼，他們也往往能提出一些好點子。與同事討論在處理最難的bug時特別有效。

2.密切關注

通常，如果調試問題花了很長時間，往往是因爲我做了錯誤的假設。例如，我認爲問題發生在某一方法中，但事實卻是它甚至從來沒有到達那個方法。或者，被拋出的異常不是我以爲的那個。或者，我認爲軟件的最新版本上正在運行，但其實是一箇舊版本。因此，一定要覈實細節，而不是假設。人們更容易看到自己希望看到的東西，而不是事實。

3.最近的變化

當曾經可以正常工作的東西停止工作，那麼這通常是因爲最近改變的東西所導致的。在一個案例中，最近的改變只是日誌記錄，但是日誌中的錯誤卻導致了一個更大的問題。爲了更容易找到這種迴歸，承認不同的提交會導致不同的變化，以及清楚說明這些更改會有所裨益。

4.相信用戶

有時，當用戶報告問題的時候，我的本能反應是，“這是不可能的。一定是他們做錯了什麼事”。但我學會了不再用這種方式去迴應。更多的時間，事實往往證明，他們所報告的的確是實際發生的情況。因此，這些天，我開始接受他們所報告的內容的表明價值。當然，我依然會仔細檢查一切是否被正確地設置等等。我見過很多這樣的情況，讓我明白，因爲不尋常的配置或意料之外的用法而導致不可思議的事情的發生，而我默認的假設是，他們是正確的，程序是錯誤的。

5.測試修復

如果bug修復已準備就緒，那就必須進行測試。首先在修復前運行代碼，並觀察該bug。然後應用修復並重複測試案例。到此爲止錯誤行爲應消失。遵循這些步驟可以確保它確實是一個bug，並且此次修復的確可以解決這個問題。簡單而有必要。

免責聲明：本文來源網絡，版權歸原作者所有。如涉及作品版權問題，請與我聯繫刪除。

推薦閱讀：

樹莓派基於 Linux 的 Windows XP

嵌入式軟件測試的10條祕訣

國產EDA落後的根源探究

關注微信公衆號『strongerHuang』，後臺回覆“1024”查看更多內容，回覆“加羣”按規則加入技術交流羣。

長按前往圖中包含的公衆號關注

如何減少編碼、測試和調試三個階段的bug？

公司新來一個幹練小夥，把 MyBatis 替換成 MyBatis-Plus，上線後哭暈在廁所。。。

10分鐘本地運行llama3及初體驗

Testin雲測上線華爲Pura 70系列真機測試服務！

手寫協議報文 c語言手法

STM32 + IAP + Ymodem完美結合

“前端+後端+算法”標準是越來越高，算法工程師的技能危機如何破局？

電子設備運行時，有時聽到"嘰"的噪音是什麼引起的？

神器STM32CubeMonitor如何監測程序中的變量

代碼不僅要寫的漂亮，還要防止刪庫跑路

https://yachay.unat.edu.pe/blog/index.php?comment_area=format_blog&comment_component=blog&comment_co

linux以太網驅動總結