我們經常遇見的問題

 

經常有人問我們,日常常見問題有哪些,如何解決?您可想象,我們是全球最大的大型互聯網系統外包服務運營商,所以幾乎碰到過所有問題。

我們運行各類遊戲、電商、移動通訊、廣告、財經、社交活動、旅遊及其它多種網站,所以在各種系統平臺上碰到過各種各樣的問題。在全球十幾個國家有幾百萬用戶,每秒需處理幾千個事務,系統問題及系統崩潰常有發生、避之不及。

但是,有些共性問題是我們經常碰到,經常處理的,基本上這些問題可以歸到一些大的分類,如可靠性問題、系統性能問題、系統擴展問題及系統安全問題。

對於可靠性問題,其產生根源衆多,如過載、代碼問題、服務器崩潰、數據庫問題、帶寬、硬件、雲問題、CDN、數據中心問題等。我們也見證過一些系統更新,還未經完善測試便加以運用所帶來的問題,這些問題是人爲的,由程序員、內容編輯人員、遊戲開發人員甚至是我們的成員所造成的。

從長遠來看,我們最大的也是經常碰到的問題便是磁盤空間問題。客戶數量激增、博客量也驟增。不管你提供多大的磁盤空間,爲了處理數據及其它事務,他們會把磁盤空間消耗殆盡。所以,我們就像其它的系統管理員一樣,竭盡所能,想盡一切辦法增大磁盤、增加存儲空間。所幸的是當今的3TB 磁盤真的很大,可不幸的是數據文件也很大而且採用雲儲存代價很高。所以我們經常接到此類通知,配合客戶需求,手動或自動清理存儲空間。

數據庫問題是一個司空見慣的問題,從過載到常見的複製問題。客戶經常誤解複製、不明白複製需求及複製效果,所以經常產生問題,而我們也就一直不斷地來解決這些問題,包括使用新型的探測、監控及管理工具使系統正常運行、保證數據準確性。這一工作變得越來越重要,因爲數據在電子商務及廣告業變得越來越關鍵、越來越面向財務。

其它的可靠性問題還包括PHP, Java 及其它Django問題,當然還包括系統崩潰以及我們日常監控、管理及解決的問題。特別對於中國而言,我們每天要處理的主要問題就是帶寬問題,帶寬時而好、時而差、時而又恢復正常。 同時,在中國某些地區,帶寬問題一直存在,前一秒連接的很好,後一秒就斷線了。在今天,要恢復連接,通常至少要聯繫數據中心、電信部門、還要弄清楚要連接什麼和什麼。

系統性能問題包括超負荷,就是常見的CPU、RAM 及IO 被大量佔用;很多用戶(有時是同一天同一時間)登錄到客戶網站造成了各種問題。在無邊無際的互聯網世界中,可謂事事難料、變幻莫測。

經常碰到的問題就是:寫的很差的PHP代碼突然增加了負載,造成系統CPU不夠;或某些程序佔用空間大,導致RAM不夠;以及SQL很差,沒有索引,使數據庫崩潰,無法處理併發事件、上鎖甚至是進行輸入輸出操作。

系統擴展問題有別於其它問題,爲應付未來幾天、幾周甚至幾個月的事務增長,而需快速建立或擴展系統時,更需另當別論。因爲通常情況下,系統架構時並未考慮此事,負載均衡做的很差,甚至沒有負載均衡,或者是沒有便攜式PHP/Java會話而導致無法實現均衡。

經常有客戶到我們這裏說,他們的系統遇到“瓶頸”了,前一分鐘還運行的很好,然後,突然有一天因爲過載崩潰了。從理論上說,不應該出現這種情況,但是,如果使用的監控軟件很差,無法顯示系統是否接近系統上限的話,那麼這種情況就會經常發生。不幸的是,系統CPU使用量在95%和100%時,用戶體驗是截然不同的:95%時,可能系統運行的有點慢,而在100%時,系統就根本無法工作。

系統安全一直是一個挑戰,雖然我們的系統從總體上來說很安全,但是,我們的客戶使用的代碼不安全,使用的附加工具,如Cpanel 或各類管理界面如PHPMyAdmin 也不安全。所以,我們一不留神,這些壞蛋就有了可乘之機,有道是:“千里之堤毀於蟻穴。”

所幸的是,我們的安全是多層次的,而且所分配的權限是最低的,所以,對系統安全的破壞性很少發生。但是,偶爾也會有系統破壞,我們就必須清理系統,更改授權,增加客戶日誌及安全監控器等等。有時,我們還做審計工作,查看是否有黑客存在及其藏匿位置。

最後,我們經常遇見的問題就是如何節省開支。這不算是技術問題,但是,我們經常發現客戶在系統及服務器上花費頗多,甚至花過多的冤枉錢。他們會因爲系統慢,自己不知道如何解決或調試系統;或者雖然站點功能頗多,但是卻不知道如何將其虛擬化並置於私雲中,所以就採購了許多服務器。

在此,我們通過調試系統便可以對其進行擴展,而無需購買新系統,或者以更經濟的創建私雲的方式擴展系統,便可爲客戶節省大量開支。

 

       (Authored by Steve Mushero / ChinaNetCloud CEO & CTO  本博客英文原文請點此查看
發佈了65 篇原創文章 · 獲贊 5 · 訪問量 6萬+
發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章