抓蝦網的架構

原文:http://blog.csdn.net/smarttony/article/details/5811890

 

抓蝦網是一個提供RSS在線閱讀服務的網站,由徐易客與諶振宇在2005年創辦,我使用抓蝦將近兩個月的時間,後來由於抓蝦不能抓取一些國外的RSS(Google Reader能抓取),同時RSS的更新速度也比較慢,同時UI/UE也比不上鮮果,甚至比不上有道閱讀,因此後來放棄了抓蝦。到現在爲止一直使用Google Reader,當然Google Reader也有它的缺點,比如不能修改文件夾的名稱,當然這個不是很重要,以後應該會改進的,其它方面還算都不錯。

抓蝦現在後端服務主要用C++,前端用
PHP(就是採用比較流行的LAMP組合,具體可以看這兒)和JavaScript,也用了Python來做一些多個模塊結合的工作。

下面這些引用自抓蝦的官方博客上,他們自己開發了很多系統,不知道爲什麼沒有用開源系統

  1. 存儲:ZStorage,抓蝦自己開發了分佈式的存儲系統,用來存儲海量數據,抓蝦的文章數已經接近了7億篇,每天還在瘋狂增長,數據量早就超過了 1 TB。感謝大牛工程師CL爲我們帶來穩定的存儲系統。
  2. 抓取:ZSpider,400萬博客、接近7億篇文章背後,是抓蝦強大的分佈式Spider,融合幾十種抓取策略,多種頁面分析算法與內容抽取算法,無論是普通網頁、RSS、 論壇頁面甚至JS腳本,都可以應付自如。當然,這個spider也是由抓蝦工程師用一行一行代碼寫出來的。
  3. 搜索:有了這麼多數據,怎麼找呢?ZIndex,三個工程師用一個月的時間,開發了抓蝦的分佈式、高效靈活的檢索系統,性能可比主流搜索引擎,爲抓蝦用戶提供TB 級海量數據的檢索。
  4. 緩存:抓蝦自己開發的分佈式緩存 ZCache,命中率只能用一個字來形容——舒服。 這麼精彩的作品,感謝大牛工程師dasheng。


用什麼技術不是最重要的,不管是你自己開發的也好,是用開源的系統也好(提前是要在高併發下不要出現什麼大的問題),最終的目的是爲用戶帶來有價值的服務,然後再在這個基礎上考慮盈利模式。由於Google Reader目前沒有盈利的壓力,而且它的背後有着Google強大的團隊的支撐,Google Reader會越來越好,而且用戶轉換RSS的成本很低(也就是簡單的OPML導入及導出,非常簡單的),因此抓蝦如果再不把用戶體驗做好,用戶可能會逐漸轉換到Google Reader或鮮果,甚至有可能轉換到有道閱讀、QQ閱讀空間、搜狐閃電閱讀

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章