瞭解Instagram背後的技術

（本文首發於InfoQ中文站：http://www.infoq.com/cn/news/2012/05/instagram）

剛被Facebook以10億美金收購的著名手機照片分享應用Instagram最近吸引了無數人的眼球，Android版本登陸Google Play不到一個月下載量就突破1000萬，總用戶數即將超過5000萬。Instagram聯合創始人Mike Krieger說他們用了8周時間打造了最初的Instagram，但現在的系統肯定已經今非昔比。Instagram技術團隊曾發表過一篇文章，介紹了Instagram背後的技術，日前Mike Krieger在名爲Scaling Instagram的演講裏，又介紹了更多細節，讓人們能瞭解到5名技術人員是如何支撐起整個系統的。

一張照片上傳的過程是這樣的：

採用同步的方式寫入媒體數據庫
如果照片上有地理位置標籤，則以異步的方式將照片提交給Solr進行索引
將照片的ID加入每個關注者的列表裏，該列表保存在Redis之中
在顯示Feed時，選取一小部分照片ID，在Memcached裏進行查詢

在設計系統時，Instagram的設計哲學是簡單、爲最小化運維負擔進行優化並監控一切內容；其核心原則是保持簡單，不要重複發明輪子，儘可能使用經過驗證、穩定可靠的技術。

由於只有5名技術人員（其中僅2.5名後端工程師），精力有限，選擇Amazon的雲服務是個不錯的選擇。目前他們使用了超過100個EC2實例用於提供各種服務，運行的操作系統是Ubuntu 11.04，之前的一些版本在高流量時表現不夠穩定。在負載均衡方面，他們使用Amazon的Elastic Load Balancer實現負載均衡，後端運行了3個Nginx實例，SSL只到ELB上爲止，降低了Nginx上的CPU負載。DNS和CDN分別由Amazon的Route 53和CloudFront提供，所有的照片都存放在S3上，目前已經有幾TB的規模了。

用於處理請求的應用服務器運行於Amazon High-CPU Extra-Large Instance之上，由於他們的請求更多是CPU密集型的，因此這能更好地平衡CPU與內存。採用的開發框架是Django，WSGI服務器是Gunicorn，通過Fabric在所有機器上進行並行部署，一次部署僅需幾秒鐘。

大多數數據都存放在PostgreSQL裏，主分片集羣運行於12個High-Memory Quadruple Extra-Large Instance（68.4GB內存）上，另有12個位於不同可用區裏的副本，通過repmgr以Streaming Replication的方式進行同步。由於Elastic Block Store的磁盤IOPS不高，因此需要將正在使用的數據都加載到內存裏，vmtouch能幫助管理內存中的數據。他們在EBS上使用mdadm實現了軟件Raid，以此提升寫吞吐量；數據庫的文件系統用的是XFS，在從庫獲取快照時，會先凍結RAID陣列，保證快照的一致性。

應用程序在連接數據庫時，由Pgbouncer建立連接池。目前，Instagram的數據按照用戶ID進行分片，某些分片可能會超出物理節點的容量上限，爲此他們將數據分成了很多個邏輯分片，映射到少數幾個物理節點之上；當一個節點被填滿之後，可以將某些邏輯分片移到別的節點上，以緩解該節點的壓力。隨着數據量的增長，以後他們也會進行垂直分區，Django DB Router能讓一切輕鬆不少。

Instagram也大量使用Redis來存放複雜的對象（對象的大小做了一定的限制），用於主Feed、活動Feed、會話系統及其他相關係統。因爲要將Redis的所有數據都放在內存裏，此處同樣也用了High-Memory Quadruple Extra-Large Instance，並對數據做了分片。當Redis實例的請求達到4萬/秒後，它漸漸成爲了瓶頸，於是Redis也做了主從複製，副本的數據會經常導出到磁盤上，通過EBS快照進行備份。

除了Redis，他們還使用Memcached來做緩存，目前運行了6個實例，應用服務器通過pylibmc和libmemcached進行連接。雖然Amazon提供了Elastic Cache服務，但該服務的價格並不便宜，相比之下，還是運行自己的Memcached實例比較划算。異步任務隊列使用的是Gearman，目前有大約200個工作進程來處理各種任務，比如把照片分享到Twitter和Facebook，通知用戶有新照片等等。Pyapns已經處理了十億的推送通知，非常穩定，他們還自己開發了基於Node.js的node2dm，用於向Android設備發送推送通知。

監控方面，Instagram使用Munin以圖形化的方式呈現整個系統的運行狀況，還通過Python-Munin定製了一些插件，用來顯示業務數據；網絡守護進程Stated可以實時收集數據並做彙總；Dogslow會監控進程，一旦發現運行時間過長的進程，便會保存該進程的快照，以便後續分析，比如響應時間超過1.5秒的請求，通常都是卡在Memcached的set()和get_many()方法上。對於Python的錯誤，只要登上Sentry就能實時獲取錯誤信息。

HighScalability上還根據整理Mike Krieger的演講整理了一些值得借鑑的經驗，比如：

找那些你熟悉的技術和工具，在簡單的使用場景裏先做一些嘗試
不要使用兩個工具來處理同樣的任務
事先準備降級方案，以便在需要時降低負載
不要過度優化，或者希望能事先知道站點要擴展，對於一個初創的社交站點而言，沒什麼擴展性問題是解決不了的
如果一個辦法不行，趕快換下一個

如果您想進一步瞭解Instagram背後的技術細節，可以訪問其技術團隊的博客。

瞭解Instagram背後的技術

「Pygors跨平臺GUI」1：Pygors跨平臺GUI應用研究

[轉帖]

python列出centos7內存使用前50的進程信息

「Pygors跨平臺GUI」2：安裝MinGW-w64、MSYS2還是WSL2

一鍵自動化博客發佈工具,用過的人都說好(掘金篇)

通義千問 2.5 “客串” ChatGPT4，你分的清嗎？

Garnet：微軟官方基於.NET開源的高性能分佈式緩存存儲數據庫

Flink執行圖

Java響應式編程

評估統計算法在銀行僞造鈔票檢測中的價值

isInfoEnabled究竟多有用？

我的2010

那些你該瞭解的Spring子項目

每週推薦閱讀網站低調上線

每週推薦閱讀第一季結束

https://yachay.unat.edu.pe/blog/index.php?comment_area=format_blog&comment_component=blog&comment_co

linux以太網驅動總結