抓蝦網的架構

原創

2020-06-25 16:35

原文：http://blog.csdn.net/smarttony/article/details/5811890

抓蝦網是一個提供RSS在線閱讀服務的網站，由徐易客與諶振宇在2005年創辦，我使用抓蝦將近兩個月的時間，後來由於抓蝦不能抓取一些國外的RSS(Google Reader能抓取)，同時RSS的更新速度也比較慢，同時UI/UE也比不上鮮果，甚至比不上有道閱讀，因此後來放棄了抓蝦。到現在爲止一直使用Google Reader，當然Google Reader也有它的缺點，比如不能修改文件夾的名稱，當然這個不是很重要，以後應該會改進的，其它方面還算都不錯。

抓蝦現在後端服務主要用C++，前端用PHP(就是採用比較流行的LAMP組合，具體可以看這兒)和JavaScript，也用了Python來做一些多個模塊結合的工作。

下面這些引用自抓蝦的官方博客上，他們自己開發了很多系統，不知道爲什麼沒有用開源系統

存儲：ZStorage,抓蝦自己開發了分佈式的存儲系統，用來存儲海量數據，抓蝦的文章數已經接近了7億篇，每天還在瘋狂增長，數據量早就超過了 1 TB。感謝大牛工程師CL爲我們帶來穩定的存儲系統。
抓取：ZSpider,400萬博客、接近7億篇文章背後，是抓蝦強大的分佈式Spider，融合幾十種抓取策略，多種頁面分析算法與內容抽取算法，無論是普通網頁、RSS、論壇頁面甚至JS腳本，都可以應付自如。當然，這個spider也是由抓蝦工程師用一行一行代碼寫出來的。
搜索：有了這麼多數據，怎麼找呢？ZIndex，三個工程師用一個月的時間，開發了抓蝦的分佈式、高效靈活的檢索系統，性能可比主流搜索引擎，爲抓蝦用戶提供TB 級海量數據的檢索。
緩存：抓蝦自己開發的分佈式緩存 ZCache，命中率只能用一個字來形容——舒服。這麼精彩的作品，感謝大牛工程師dasheng。

用什麼技術不是最重要的，不管是你自己開發的也好，是用開源的系統也好(提前是要在高併發下不要出現什麼大的問題)，最終的目的是爲用戶帶來有價值的服務，然後再在這個基礎上考慮盈利模式。由於Google Reader目前沒有盈利的壓力，而且它的背後有着Google強大的團隊的支撐，Google Reader會越來越好，而且用戶轉換RSS的成本很低(也就是簡單的OPML導入及導出，非常簡單的)，因此抓蝦如果再不把用戶體驗做好，用戶可能會逐漸轉換到Google Reader或鮮果，甚至有可能轉換到有道閱讀、QQ閱讀空間、搜狐閃電閱讀。

發表評論

所有評論

還沒有人評論，想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.

抓蝦網的架構

[轉帖]使用NMT和pmap解決JVM資源泄漏問題原創

Python實現大麥網搶票的四大關鍵技術點解析

salesforce零基礎學習（一百三十八）零碎知識點小總結（十）

一款開源的.NET程序集反編譯、編輯和調試神器

關於接口協議，你必須要知道這些！

【2024-05-21】以茶會友

程序=溝通+思考

離開，是爲了新的開始

抓蝦網的架構

一個數據分析系統的技術架構設計淺析

系統參數配置的存儲管理與應用的通用方法

https://yachay.unat.edu.pe/blog/index.php?comment_area=format_blog&comment_component=blog&comment_co

linux以太網驅動總結