現代軟件工程講義 8 軟件的血型

[這是 現代軟件工程講義 的一篇]

一個軟件團隊經歷了計劃/設計/開發等階段, 達成代碼完成 (Code Complete) 這一目標,似乎後面的事情就水到渠成了.  其實不然, 軟件生命週期的最後階段往往是最考驗團隊的,不但考驗團隊項目管理水平,應變能力,也考驗團隊的血型。 原計劃的軟件發佈時間快到了,但是軟件還是有這樣那樣的bug,怎麼辦?

優秀的軟件團隊會發布有已知缺陷的軟件麼?

我覺得和人類血型類似,軟件團隊的“軟件血型”也可以分4種:

    A型:他們知道優秀的軟件公司會發布有已知缺陷的軟件;

    B型:他們不相信這一點;

    O型:他們不知道這一點,因此嘴巴驚訝成O型;

    AB型:他們對於自己開發的軟件是A型,對於別人開發的軟件是B型。

 

B型的人會發現搞軟件開發是很痛苦的事。要說明的一點是,所有軟件公司都希望能夠把缺陷都改正了才發佈軟件,但是第一什麼叫“缺陷”?如果只是一些無關大局的問題,用戶可以繞過去的,我們非得馬上解決麼?第二什麼叫“改正”?如果改正的方案中又有“缺陷”怎麼辦? 做商用軟件的人都在爲此苦惱,只有優秀的軟件公司能找到一個平衡點,及時發佈能夠解決用戶問題的軟件,並且能及時修改軟件中的問題——注意,這兩個“及時”並不一定是同一個時間。做“大作業”的軟件(比如爲了演示、交作業)可以不用管這兩個及時,交了卷,就萬事大吉了。

說到“質量”,我們不提“全面質量管理”,因爲“全面”之後,會出現“大道廢,有仁義”的現象,大家都講“全面質量管理”,往往意味着我們的質量管理沒有抓到點子上。而且有些庸人往往會以“高質量”爲由,阻礙正常的工作進程。而那些口口聲聲要求“高質量”的人士,往往是出於下列情況:

    a) 缺乏對用戶、行業、軟件開發的洞察力,對於“高質量”並沒有具體的定義。

    b) 沒有具體的招數讓軟件達到所謂的“高質量”。

    c) 害怕真實世界的反饋,因此不發佈軟件,能拖一天是一天。

 

可以看看這兩個例子, 推斷出這些團隊的血型:

    STG 遊戲的跳票 (爲了完美,推遲了 7 天,但是7天之後也沒有發佈…)

    英語學習軟件  (說了 “明早發佈”,但是明早一直沒到)

有些同學會馬上舉出世界有名的公司推出完美軟件的例子, 例如蘋果, 永遠的毀滅公爵等等…. 請問: iPhone 的第一個版本是完美的麼?  它連 複製/粘貼 的功能都沒有

 

那麼,從軟件的Code Complete 到最後發佈, 我們要經歷哪些步驟,有哪些招數讓我們能以比較大的共識,比較小的痛苦走完這血腥的流程,需要什麼樣血型,血性的團隊才能按時推出優秀軟件?

 

首先看看一些常用的名詞:

Alpha: 指集成了主要功能的第一個試用版本。有些小功能並沒有實現。事實上很多軟件的Alpha版本只是在內部使用。給外部用戶使用的版本會起一個比較美妙的名字,Technical Preview, 等等。

Beta: 功能基本完備,穩定性較Alpha版本高,用戶可以在實際工作中小範圍使用,可以有Beta1、Beta2、Beta3……

ZBB(Zero Bug Build): 某天的版本要把在48 小時前記錄的bug 都解決掉。

RC(Release Candidate): 發佈候選版本,RC1、RC2……直到RTM爲止,版本間隔時間較短。

RTM(Release To Manufacturer): 最終發佈版本。如果某一個RC版本沒有很大的問題,那麼這一RC就會成爲最終的版本, 通常情況下,軟件公司會把最終的版本和相關的文件及其他資料交給另一個團隊(Manufacturer)去包裝、刻軟盤、光盤。在AppStore/MarketPlace 的年代 , 我們有相應的 RTM (Release To Market)。

RTW(Release To Web): 和RTM類似,對於網絡應用來說,我們無須依賴“Manufacturer/Market”來製造軟件的光盤或者管理軟件的發佈渠道,但是我們要依賴“Web”來發布我們的最終版本。如果軟件產品是一個網站服務,那軟件系統一般會交給網站運營團隊(Operation Team)去管理,這樣的發佈也可以叫做RTO(Release To Operation), 運營團隊和研發團隊一起決定什麼時候系統上線(Go Live)。

 

image

 

會診小組(Triage  Team)

軟件團隊的各個角色代表 (pm/dev/test/UX 等) 組成會診小組。處理每一個影響產品發佈的問題。 打個比喻, 就像醫院的門診或急診室 (Triage Room), 如果一下蜂擁進來好多病人,  但是醫院裏人手和設備有限, 值班的醫生護士要根據病人的情況安排。  另一個類似但比較緊急的場景是,  在戰地醫院裏,  兩次戰鬥的間隙, 醫護人員衝上硝煙尚未散盡的戰場搜救傷員,  有些做簡單包紮即可, 有些要擡擔架, 有些傷情太重的, 只好放下不管了。 大家的血型和勇氣在這一次次的triage 會議中得到了展現。 下面的招數都是在會診小組的領導下進行的。

對於每一個bug, 會診小組要做出下面的決定:

  • - 修復
  • - 設計本來如此 (as designed)
  • - 不修復 (won‘t fix)
  • - 推遲 (postpone)    //如果我們的軟件是真正解決用戶問題的, 是有價值的,那它一定會有下一個版本。

 

招數: 設計變更(Design Chang Request)

經過Alpha / Beta階段,移山團隊收到了不少用戶的反饋,有些是意料之中的,有些是意料之外的。大家都看到,原來的設計也有不少要改進的地方。有了用戶反饋,大家也能夠取得比較一致的意見。另外,大家也有了很多新想法。一時間,衆說紛紜,很多人都嚷嚷着——DCR,DCR!

重寫或者是重構

小飛:我們的某某模塊真是太爛了,我覺得必須重寫,而且現在又有了新的技術叫 “我佩服”(WPF) [或插入任一最近時髦的技術],它能做很酷的效果,爲什麼不呢?

二柱:我們先要看看,原來爛到什麼程度,現在是否能完成功能?你所說的問題有多嚴重?是功能不能實現?或者界面有問題?或者不能擴展(例如:不能支持更多用戶)?

大栓:另外,是重構,還是重寫?

重構——在儘量保持原有界面的基礎上優化部分代碼。

重寫——重新實現原有功能,同時,要分清是全部重複原有功能,還是偷偷加上許多新的功能(Feature Sneak)?

小飛:咱們找領導去,超總,看看我新寫的功能。

阿超:你不是在修理這個模塊的 bug 麼?怎麼開始寫新的功能了?

小飛:對,但是你是不是覺得我加的這個新功能很酷,嗯……現在是有點慢,但是如果數據庫再做一些對應的修改,比如增加一個緩衝之類的,那就更好了。

阿超:用戶提到了這個功能麼?這和我們項目的遠景有什麼關係?數據庫修改後,原來的用戶數據要如何遷移到新的Schema下面?

小飛:嗯,但是用戶如果看到了,就會喜歡的。

阿超:很多程序員有這樣的衝動,在做修改的同時,想到自己還能做更多的事,有一個“東西”一直想做,但是提出幾次都沒人重視,那現在有機會,就 “加進去” 算了。或者還有很多靈機一動的想法。打一個比喻——本來是要修廚房頂上一個有時漏水的水管,結果修理工來了,修好了水管,同時靈機一動,加了一個帶淋浴的豪華衛生間。

小飛:但這畢竟是新的想法,我以爲你會喜歡的。

阿超:記住我們在項目的當前階段是一個阻尼振盪的過程,要收斂和穩定。等到下個版本開始的時候再進行發散的思考吧。如果你覺得目前的設計有問題,我們要用DCR 來管理。

對所有提出來的問題都列表(標題註明 Beta Feedback),阿超給大家列出了DCR的要點:

(1)如何提出DCR?

        a. 在提交一個DCR的時候,選用任務作爲工作件類型,並在標題中標明:DCR。

        b. 在DCR的描述文字中,說明:

                i. 問題在哪裏,問題的影響;

                ii. 如果不做修改,會有什麼後果?

                iii. 幾種修改的方案,各種方案的優缺點,以及成本。

(2)如何決定DCR的執行次序?

            a. 會診所有DCR。

            b. 按照影響、成本排序,得到一個自上而下的名單,根據現有資源,按照名單執行。

另外, 適合在Beta分支實現的修改並不一定適用於主分支(Main Branch), 我們要做好源代碼管理。

 

招數: ZBB

團隊要有把bug 都搞定的執行力。ZBB = Zero Bug Build,即這一版本的構建把所有已知的Bug都解決掉了。

Zero Bug Bounce:通常在一個Zero Bug Build之後,Bug數目會以驚人的速度反彈,故稱Bounce。系統要經歷幾次bounce,像阻尼震盪一樣,Bug的數目在反彈了幾次之後,最後固定在(或者無限逼近於)0。

要注意必須要保證Bug的數量到0,以防止一些問題拖而未決, 有些bug 長期拖而未決,  其實它們掩蓋了深層次的設計問題, 要早把這些問題暴露出來, 而且劃定一個時間期限, 一定要解決。

下圖是一個60人的團隊的“預想ZBB 進軍圖”。每個小組的Bug數量累加起來,就是團隊的Bug總量。下圖中的黑線表明修復的Bug總量。

clip_image002

項目ZBB = 此次構建中所有兩天 (48 小時)以前報告的缺陷都已經處理。

移山公司的例子:

第一個ZBB達到了,同時產生了一個ZBB 的構建,由於這個構建質量很好,因此測試團隊鉚足了勁把各個部分都測試了一遍。同時也測試了複雜的場景,進行了效能和壓力測試。結果報告出來不少新問題。因此ZBB 之後的 Bounce 就跳得特別高。第二次ZBB 後,由於各個模塊質量的提高,這一次的反彈就低很多,隨着每次ZBB 過程中質量的加強,Bug 的數目會越來越少。同時也有幾個功能被砍掉,這些功能的Bug 也就不計入總數。下面ZBB 的趨勢圖顯示了Bug 經過幾次反彈,逐漸到0的情況。

clip_image002[4]

圖15-9 bug ZBB趨勢圖,橫座標是構建的版本號

 

招數: 砍掉功能

有一個模塊看來不能實現預期的設計需求,時間快到了,怎麼辦?

砍!

芸芸:可是我們花了很多心血才把設計做到目前的地步,好像再努一把力,就可以成功了。現在撤退,我真是不忍心呀,這不是浪費以前的投入麼?

果凍:對呀,我們可能只需要額外的三天,不,只要額外的三個通宵就可以了。再說我們可以以後接着修復任何新問題。

阿超:這些話好像有理,但是細一想,都沒道理。芸芸,你聽說過  “沉沒成本(Sunk Cost)”  這個詞沒有?沒有的話,應該上網查一查,好好學學。果凍,從你做事的歷史來看,如果類似的功能需要N個單位時間才能最終完成,那麼我們沒有理由相信新功能會花少於N個單位時間。我們再回顧一下以前看過的功能/資源/時間的平衡圖, 我們要不斷保持這些因素的平衡:

 

image

 

招數: 修復bug 的門檻逐漸提高

在beta 期間,  修復bug 的門檻要逐漸提高,  昨天修復了同樣類型的bug, 今天如果還找到了類似的問題, 團隊未必要修復。 在RC 階段, 只有影響巨大的bug 才能修復。 其它優先級較低的的bug 就只好在一邊等着。 如果有嚴重的bug 要修復, 那麼這些不嚴重的bug 也許有機會跟着一起修復。

在alpha 階段, 如果開發人員拿到一個bug, 那他/她 就可以馬上去修復, 只是在簽入之後告訴大家做了什麼樣的修改。

在beta 階段, 在新代碼簽入之前, 就要告訴會診小組這個修改潛在的風險是什麼, 如何應對,等等。

在RC 階段,  開發人員拿到 bug 進行修復工作之前,  就要和會診小組溝通,  看看這個bug 是否值得花時間。

 

 

 

 

招數: 逐步凍結

隨着程序功能的完善,我們要讓程序的各個方面有次序地“凍結”,這樣才能把穩定的軟件交付給用戶。一般來說,程序的人機交互界面最先開始“凍結”,不能再隨意修改,因爲很多項目的文字信息要被本地化成多種語言,當人機界面所用的文字和排版(layout) 固定後,我們才能把這些文字交給負責本地化的部門。隨着時間的推移,一些功能也可以“凍結”,這些功能都經過全面測試,所有的Bug 都解決了,功能進入穩定狀態。在下一個版本前不要再碰和此功能相關的代碼。如果有新的功能要寫怎麼辦?  那就把源代碼分支 (fork), 在新代碼分支裏開發下一個版本的功能。

 

[注: 大部分內容來自 移山之道]

 

發佈了216 篇原創文章 · 獲贊 208 · 訪問量 36萬+
發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章