【轉載】百萬級訪問網站前期的技術準備(下)

 

這一系列的最後一篇寫給普通編程人員,如果不感興趣可直接看本文最後幾段。

開始設計代碼結構之前,先回顧一下之前準備過的事情:我們有負載均衡的WEB服務器,有主從DB服務器並可能分片,有緩存,有可擴展的存儲。在組織代碼的各個方面,跟這些準備息息相關,我一二三的列出來分別說,並且每一條都以“前面講到”這個經典句式開頭,爲了方便對照。

彆着急看經典句式,我思維跳躍了,插一段。實際開發中,我們總會在性能和代碼優雅性上作折中。對於當今的計算機和語言解釋器,多幾層少幾層對象調用、聲明變量爲Map還是HashMap這種問題是最後才需要考慮的問題,永遠要考慮系統最慢的部分,從最慢的部分解決。例如看看你用的ORM是不是做了很多你用不到的事情,是不是有重複的數據調用。我們做的是web應用開發,不是底層框架API,代碼易讀易懂是保證質量很重要的一方面,你的程序是爲了什麼而設計,有不同的方法……算了,這個話題另起一篇文章來說,扯遠了,想交流可關注我的微博 http://t.sina.com.cn/liuzhiyi,咱繼續……

前面講到,WEB服務器是要做負載均衡的,圖片服務器是要分開的。對於這點,代碼在處理客戶端狀態時,不要把狀態放到單機上,舉例,不要用文件session,嗯,常識。如果有可能,最好在一開始就做好用戶單點認證的統一接口,包括跨域如何判斷狀態、靜態頁面如何判斷狀態,需要登錄時的跳轉和返回參數定義,底層給好接口,應用層直接就用(可參考GAE的user服務)。登錄方面的設計要考慮移動設備的特性,比如電腦可以用浮動層窗口,但NOKIA自帶的瀏覽器或UCWEB就無法處理這種表現形式,程序一定既能處理AJAX請求又能直接通過URL來處理請求。圖片服務器分開,資源文件最好也佈局到圖片服務器,也就是WEB服務器只服務動態程序。雖然開發測試時稍微複雜(因爲需要絕對URI才能訪問),但將來頁面前端優化上會輕鬆許多,並且你的WEB服務器IO優化也輕鬆許多。程序引用資源文件時,要有一個統一的處理方法,在方法內部可以自動完成很多事情,例如將css/js根據組合,拼成一個文件,或者自動在生成的URI後面加上QUERYSTRING,如果將來前端用了緩存服務,那生成QUERYSTRING是最簡單的刷新服務端緩存和客戶端緩存的辦法。

前面講到,數據庫會有複製,可能會多主多從,可能會分片。我們程序在處理數據的過程中,最好能抽象出來單獨放做一層。拿現在流行的MVC模式來說,就是在M層下方再放一個數據層,這個數據層不是通常所說的JDBC/PDO/ActiveRecord等,而是你自己的存取數據層,僅對外暴露方法,隱藏數據存取細節。這個數據層內部不要怕寫的難看,但一定要提供所有的數據存儲功能,其他任何層次不要看到跟數據庫打交道的字眼。之所以這樣做,是因爲在單關係數據庫的情況下,可能會SELECT…JOIN…或直接INSERT…INTO…,可你可能會將一些表放到key-value數據庫裏存儲,或者分片,這麼做之後原來的語句和方式要全部改變,如果過於分散,則移植時會耗費很大精力,或得到一個很大的Model。在數據層面的設計上,儘量避免JOIN查詢,我們可以多做冗餘,多做緩存,每種數據儘量只需要一次查詢,然後在你的程序裏面進行組合。對於比較複雜的數據組合,在實時性要求不高的情況下,可採用異步處理,用戶訪問時只取處理後的結果。在對於主鍵的處理上,避免使用自增ID,可以用一定規則生成的唯一值當做主鍵,這種主鍵是最簡單的分片分佈策略。即使用自增ID,也最好用一個自增ID發生器,否則從數據庫不小心被寫了一下,那主鍵很容易衝突。

前面講到,咱數據庫前面還有某些緩存擋着。別把mysql的query cache當緩存,應用稍複雜的時候QUERY CACHE反而會成爲累贅。緩存跟數據庫和業務結合的很緊密,正因爲跟業務關係緊密,所以這點沒有放之四海而皆準的方法。但我們還是有一些規則可參照。規則一:越接近前端,緩存的顆粒度越大。例如在WEB最前端緩存整個頁面,再往後一層緩存部分頁面區域,再往後緩存區域內的單條記錄。因爲越靠近後端,我們的可操作性越靈活,並且變化最多的前端代碼也比較方便編寫。在實踐中,因爲產品需求變化速度非常快,迭代週期越來越短,有時很難將Controller和Model分的那麼清楚,Controller層面處理部分緩存必不可免,但要保證如果出現這種情況,Controller所操作的緩存一定不要影響其他數據需求方,也就是要保證這個緩存數據只有這一個Controller在用。規則二:沒有緩存時程序不能出錯。在不考慮緩存失效引發的雪崩效應時,你的程序要有緩存跟沒緩存一個樣,不能像新浪微博一樣,緩存一失效,粉絲微博全空,整個應用都亂套了。在緩存必不可少的情況下,給用戶出錯信息都比給一個讓人誤解的信息強。規則三,緩存更新要保證原子性或稱作線程安全,特別是採用被動緩存的方式時,很可能兩個用戶訪問時導致同一個緩存被更新,通常情況這不是大問題,可緩存失效後重建時很可能是引發連鎖反應的原因之一。規則四:緩存也是有成本的。不只是技術成本,還有人工時間成本。如果一個功能使用緩存和不使用,在可預見的訪問量情況下區別微小,但使用緩存會使複雜度增加,那就不用,我們可以加個TODO標註,在下次迭代的時候加上緩存處理。

前面講到,文件存儲是獨立的,那麼所有的文件操作就都是遠程調用。可以在文件服務器上提供一個很簡單的RESTful接口,也可以提供xmlrpc或json serveice,WEB服務器端所生成和處理的文件,全部通過接口通知文件服務器去處理,WEB服務器本身不要提供任何文件存儲。你會發現很多大網站的上傳圖片跟保存文章是分兩步完成的,就是基於這個原因。

以上幾條“前面講到”,其實無數人都講過,我也只是結合前幾篇文章用自己的話重複了一遍,真正分析起來精髓很簡單——除了良好的功能邏輯分層,我們還要爲數據庫存儲、緩存、隊列、文件服務等程序外層資源調用單獨設計接口,你可以把你的程序想象成是運行在 Amazon EC2 上並用他的所有web service服務,你的數據庫就是它的SimpleDB,你的隊列就是他的SQS,你的存儲就是他的S3,唯一不同是amazon的接口是遠程調用,你的是內部調用。

將支撐服務接口化,意味着將MySQL更換到PostgreSQL不需要更改業務處理程序,移植團隊甚至不需要跟業務開發團隊過多溝通;意味着業務開發團隊是對接口編程而不是對數據庫編程;意味着不會因爲某個業務開發人員的失誤而拖垮性能。

對程序掃盲不感興趣的直接看這裏——

產品設計完了,程序框架搭完了,可能有矛盾在這個節骨眼兒產生了。不斷有產品設計抱怨說他的創意沒實現到預期效果,有程序員抱怨說產品設計不切實際。這種抱怨多緣於產品人員不懂技術,技術人員不理解產品。從廣義上來講,產品包含市場策略、營銷手段、功能設計,產品和技術在爭論時往往把焦點放在功能上,而實際重點是,實現這個功能所消耗的成本跟能這個功能帶來的利益能否換算,能否取其輕重。若可以,爭議解決。若不能,則拋硬幣看運氣。因爲一個功能的加強而引發指標井噴,或因項目拖延而導致貽誤戰機的例子比比皆是。激進的決策者注重利益,保守的決策者注重損失,聰明的決策者會考慮這個問題是否真的那麼嚴重。

關係到未來的事情誰都說不準,要不怎麼說創業一半靠運氣呢。不過總有能說的準的事情,那就得靠數據說話。

沒有100%也有99.9%的網站安裝了訪問統計代碼,連我的 http://zhiyi.us 也不例外,新聞聯播也總說科學決策科學發展的。有了統計,能確定的事情就很多了。例如,可以根據來源-目標轉化率來分析哪類渠道的人均獲取成本低,根據來源-內容訪問猜測用戶跳出率原因,根據用戶點擊行爲判斷鏈接位置是否合理等。將數據以不同方式組合起來,找到內在聯繫,分析內因外因,制定對應策略,減少拍腦門決策。靠數據支撐運營是個非常專業的事情,雖然不懂深奧的數學模型不會複雜的公式計算,漸漸學會因爲A所以B,因爲A和B所以C還是相對簡單的。

原文:http://zhiyi.us/internet/thinking-twice-before-building-your-site-final.html

發佈了49 篇原創文章 · 獲贊 1 · 訪問量 3670
發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章