各大型網站架構分析收集

各大型網站架構分析收集

CSDN author:黃剛

1. PlentyOfFish 網站架構學習
http://www.dbanotes.net/arch/plentyoffish_arch.html

採取 Windows 技術路線的 Web 2.0 站點並不多,除了 MySpace ,另外就是這個 PlentyOfFish。這個站點提供 “Online Dating” 服務。一個令人津津樂道的、驚人的數據是這個只有一個人(創建人Markus Frind)的站點價值 10 億,估計要讓很多人眼熱,更何況 Markus Frind 每天只用兩個小時打理網站–可操作性很強嘛。

2. 從LiveJournal後臺發展看 大型網站系統架構以及性能優化方法
http://www.example.net.cn/archives/2006/03/olivejournaloio.html

LiveJournal是99年始於校園中的項目,幾個人出於愛好做了這樣一個應用,以實現以下功能:
* 博客,論壇
* 社會性網絡,找到朋友
* 聚合,把朋友的文章聚合在一起

LiveJournal採用了大量的開源軟件,甚至它本身也是一個開源軟件。

在上線後,LiveJournal實現了非常快速的增長:
* 2004年4月份:280萬註冊用戶。
* 2005年4月份:680萬註冊用戶。
* 2005年8月份:790萬註冊用戶。
* 達到了每秒鐘上千次的頁面請求及處理。
* 使用了大量MySQL服務器。
* 使用了大量通用組件。

3. YouTube 的架構擴展
http://www.dbanotes.net/opensource/youtube_web_arch.html

在西雅圖擴展性的技術研討會上,YouTube 的 Cuong Do 做了關於 YouTube Scalability 的報告。視頻內容在 Google Video 上有(地址),可惜國內用戶看不到。
Kyle Cordes 對這個視頻中的內容做了介紹。裏面有不少技術性的內容。值得分享一下。(Kyle Cordes 的介紹是本文的主要來源)

4. WikiPedia 技術架構學習分享
http://www.dbanotes.net/opensource/wikipedia_arch.html

維基百科(WikiPedia.org)位列世界十大網站,目前排名第八位。這是開放的力量。

來點直接的數據:

* 峯值每秒鐘3萬個 HTTP 請求
* 每秒鐘 3Gbit 流量, 近乎375MB
* 350 臺 PC 服務器

5. Tailrank 網站架構
http://www.dbanotes.net/review/tailrank_arch.html

每天數以千萬計的 Blog 內容中,實時的熱點是什麼? Tailrank 這個 Web 2.0 Startup 致力於回答這個問題。

專門爆料網站架構的 Todd Hoff 對 Kevin Burton 進行了採訪。於是我們能瞭解一下 Tailrank 架構的一些信息。每小時索引 2400 萬的 Blog 與 Feed,內容處理能力爲 160-200Mbps,IO 寫入大約在10-15MBps。每個月要處理 52T 之多的原始數據。Tailrank 所用的爬蟲現在已經成爲一個獨立產品:spinn3r。

6. LinkedIn 架構筆記
http://www.dbanotes.net/arch/linkedin.html

LinkedIn 僱員有 180 個,在 Web 2.0 公司中算是比較多的,不過人家自從 2006 年就盈利了,這在 Web 2.0 站點中可算少的。用戶超過 1600 萬,現在每月新增 100 萬,50% 會員來自海外(中國用戶不少,也包括我).

7. Yahoo!社區架構
http://www.dbanotes.net/arch/yahoo_arch.html

舊金山舉行的 QCon 會議帶給我們很多新鮮的信息。雖然沒機會參加,但是看看各個網站”曬架構”也是個比較過癮的事情。請參觀並收藏這個頁面:Architectures you’ve always wondered about。

8. Craigslist 的數據庫架構
http://www.dbanotes.net/database/craigslist_database_arch.html

Craigslist 絕對是互聯網的一個傳奇公司。根據以前的一則報道:

每月超過 1000 萬人使用該站服務,月瀏覽量超過 30 億次,(Craigslist每月新增的帖子近 10 億條??)網站的網頁數量在以每年近百倍的速度增長。Craigslist 至今卻只有 18 名員工(現在可能會多一些了)。

9. Fotolog.com 的技術信息拾零
http://www.dbanotes.net/review/fotolog_arch.html

儘管是世界上最大的圖片服務網站, Fotolog.com 在國內的名氣並不是很響亮, 每當提到圖片服務, 很多人第一個會想起 Flickr. 但實際上 Fotolog 也的確是很猛的, Alexa 上的排名一直在 Flickr 前面, 目前註冊用戶超過 1100 萬. 而前不久也賣了一個好價錢, 9000 萬美金. 算下來的話, 1 個註冊用戶大約 9 美金. Yupoo 的劉平陽可以偷着算算自己的網站如果賣給老外是怎樣一個價格了.

10. Digg 網站架構
http://www.dbanotes.net/arch/digg_arch_cache_and_shard.html

Digg 工程師採用 LAMP (Linux, Apache, MySQL and PHP) 模式。這個 Alexa 排名在 100 左右的、自我估價 1.5 億美金的站點目前有超過 100 臺的 PC 服務器(足夠少了),可以粗略分成三個部分:數據庫服務器,Web 服務器,搜索服務器。

11. Amazon 的 Dynamo 架構
http://www.dbanotes.net/techmemo/amazon_dynamo.html

我在 DBAnotes.net 上記錄過不少比較大的網站架構分析(eg: eBay [1], eBay [2]) ,Amazon 一直找不到太多的資料。國慶期間讀到了一篇關於 Amazon Dynamo 的論文,非常精彩。Amazon Dynamo 這個高可用、可擴展存儲體系支撐了Amazon 不少核心服務.

12. 財幫子(caibangzi.com)網站架構
http://www.dbanotes.net/arch/caibangzi_web_arch.html

財幫子(caibangzi.com) 定位在”基金理財社區”。是國內訪問量最大的基於 Ruby on rails 的 startup 項目。“理財”這個詞據說是光大銀行發明的,且不去管,不可否認的是,目前國內”理財”是個很有潛力的切入點。財幫子網站潛在用戶羣還是很大的。

13. 瞭解一下 Technorati 的後臺數據庫架構
http://www.dbanotes.net/web/technorati_db_arch.html

目前處理着大約 10Tb 核心數據, 分佈在大約 20 臺機器上.通過複製, 多增加了 100Tb 數據, 分佈在 200 臺機器上. 每天增長的數據 1TB. 通過 SOA 的運用, 物理與邏輯的訪問相隔離, 似乎消除了數據庫的瓶頸. 值得一提的是, 該擴展過程始終是利用普通的硬件與開源軟件來完成的. 畢竟 , Web 2.0 站點都不是燒錢的主. 從數據量來看,這絕對是一個相對比較大的 Web 2.0 應用.

14. 說說大型高併發高負載網站的系統架構
http://www.toplee.com/blog/?p=71

我在CERNET做過撥號接入平臺的搭建,而後在Yahoo&3721從事過搜索引擎前端開發,又在MOP處理過大型社區貓撲大雜燴的架構升級等工作,同時自己接觸和開發過不少大中型網站的模塊,因此在大型網站應對高負載和併發的解決方案上有一些積累和經驗,可以和大家一起探討一下。

15. 大型高負載網站架構 的感想
http://atman.memoab.com/articles/194

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章