LinkedIn使用Kafka日均處理消息超4.5萬億條

LinkedIn總部位於美國加利福尼亞州山景城,是一家全球最大的職業社交網站,成立於2002年12月,於2011年5月20日在美上市。截至目前,LinkedIn一共有超過6.45億會員,超過2000萬個工作崗位。LinkedIn目前使用Kafka日均處理消息超4.5萬億條,並已決定將所有工作負載遷移到Azure公有云上。

2009年,LinkedIn註冊用戶超過5000萬人。2014年,其註冊用戶規模已經超過3億。而今天,LinkedIn已經擁有超過6.45億註冊用戶,超過2000萬個工作崗位,每八秒鐘就有一個人通過LinkedIn被僱傭。

伴隨業務規模的不斷擴大,LinkedIn的技術團隊需要成長得更加健壯,才能滿足業務需求。LinkedIn的技術團隊創造了一個世界級的基礎設施和一套工具和產品,使用Project Inversion重建了整個軟件開發基礎設施,並且選擇將技術團隊造的輪子開源,回饋社區與其他公司。在 LinkedIn 的數據基礎設施中,Kafka 是核心支柱之一。

LinkedIn 在 2011 年 7 月開始大規模使用 Kafka,當時 Kafka 每天大約處理 10 億條消息,這一數據在 2012 年達到了每天 200 億條,而到了 2013 年 7 月,每天處理的消息達到了 2000 億條。2015年,他們的最新記錄是每天利用 Kafka 處理的消息超過 1 萬億條,在峯值時每秒鐘會發布超過 450 萬條消息,每週處理的信息是 1.34 PB。每條消息平均會被 4 個應用處理。在使用 Kafka 的最初四年中,實現了 1200 倍的增長。2019年,這個數字已經變成了4.5萬億條。

LinkedIn在將Kafka捐獻給Apache基金會後,也在持續打磨、優化着Kafka的使用與生態。隨着規模的不斷擴大,LinkedIn 更加關注於 Kafka 的可靠性、成本、安全性、可用性以及其他的基礎指標。

LinkedIn 在 Kafka 上的主要關注領域包括:

  • 配額(Quotas)

  • 開發新的Consumer

  • 可靠性和可用性的提升

  • 安全性

  • ……

除了關注打磨Kafka技術本身以外,LinkedIn還針對Kafka構建了一套完整的生態系統,以解決日益增長的業務規模所帶來的新挑戰。

上圖並不能完全反映 LinkedIn 的各種數據管道和拓撲結構,但足以說明 LinkedIn 的 Kafka 部署的關鍵部分,以及它們是怎樣相互作用。

另據瞭解,LinkedIn目前正在更換其數據中心,計劃在未來幾年向 Azure 遷移,並將關鍵業務數據委託給雲平臺。LinkedIn 高級副總裁 Mohak Shroff 表示,這將是該公司史上最大的技術轉型之一,預計至少需要三年時間才能完成 6.45 億用戶數據遷移,以避免損害網站的可訪問性、可靠性和性能。

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章