系統設計題

應屆生在面試的時候，大公司偶爾也會遇到一些系統設計題，而這些題目往往只是考一下你的知識面，或者對系統架構方面的瞭解，不會涉及編碼。很多人感覺難以應對這樣的題目，也不知道從何說起，在本文中，總結了回答這類題目需要哪些基礎知識，以及怎樣使用這些知識回答這些問題。

在正式介紹基礎知識之前，先羅列幾個常見的系統設計相關的筆試面試題：

（1）（百度）要求設計一個DNS的Cache結構，要求能夠滿足每秒5000以上的查詢，滿足IP數據的快速插入，查詢的速度要快。（題目還給出了一系列的數據，比如：站點數總共爲5000萬，IP地址有1000萬，等等）

解決方案：DNS服務器實現域名到IP地址的轉換。

每個域名的平均長度爲25個字節（在域名的命名標準中，對於域名長度是有明顯限制的。其中，中國國家域名不得超過20個字符，國際通用域名不得超過26個字符），每個IP爲4個字節，所以Cache的每個條目需要大概30個字節。

總共50M個條目，所以需要1.5G個字節的空間。可以放置在內存中。（考慮到每秒5000次操作的限制，也只能放在內存中。）

可以考慮的數據結構包括hash_map，字典樹，紅黑樹等等。

我覺得比較好的解決方法是，將每一個URL字符串轉化爲MD5值，作爲key，建立最大或最小堆，這樣插入和查找的效率都是O(log(n))。

MD5是128bit的大整數也就是16byte，比直接存放URL要節省的多。

具體可應用方法：每秒5000的查詢不算高啊，最土的方法使用MySQL+Memcached架構應該都能滿足吧？

數據結構建議以域名的md5值爲主鍵來存儲，值可以只存儲目標IP就行。Memcached用戶支撐前端查詢，MySQL用戶存儲數據，還要看總數量會有多大，如果不是特別大，直接使用MyISAM引擎來存儲就行，更新插入都非常快，如果超千萬，可以使用InnoDB來存儲，每次有新數據插入時直接使用replace into table就行，Memcached數據的更新直接使用set。

Memcached隨便用得好些，每秒上萬次的get是容易達到的，MySQL你別小看，在有的測試裏，以主鍵查詢的測試，一臺普通的服務器上，MySQL/InnoDB 5.1服務器上獲得了750000+QPS的成績。

總結：關於高併發系統設計。主要有以下幾個關鍵技術點：緩存，索引，數據分片，鎖粒度儘可能小。。

（2）有N臺機器，M個文件，文件可以以任意方式存放到任意機器上，文件可任意分割成若干塊。假設這N臺機器的宕機率小於1/3，想在宕機時可以從其他未宕機的機器中完整導出這M個文件，求最好的存放與分割策略。

解決方案：涉及到現在通用的分佈式文件系統的副本存放策略。一般是將大文件切分成小的block（如64MB）後，以block爲單位存放三份到不同的節點上，這三份數據的位置需根據網絡拓撲結構配置，一般而言，如果不考慮跨數據中心，可以這樣存放：兩個副本存放在同一個機架的不同節點上，而另外一個副本存放在另一個機架上，這樣從效率和可靠性上，都是最優的（這個google公佈的文檔中有專門的證明，有興趣的可參閱一下。）。如果考慮跨數據中心，可將兩份存在一個數據中心的不同機架上，另一份放到另一個數據中心。

（3）假設有三十臺服務器，每個上面都存有上百億條數據（有可能重複），如何找出這三十臺機器中，根據某關鍵字，重複出現次數最多的前100條？要求用Hadoop來做。

方案：針對每一臺機器有100億，類似100萬時的處理方法，對數據進行切片，可以都切爲100萬的記錄，對100萬、取最前100，不同在於這前100也存入hash，如果key相同則合併value，顯然100億的數據分割完後的處理結果也要再進行類似的處理，hash表不能過長，原理其實也就是map和reduce。然後合併這30臺機器的結果。

（4）設計一個系統，要求寫速度儘可能高，說明設計原理。

解決方案：涉及到BigTable的模型。主要思想是將隨機寫轉化爲順序寫，進而大大提高寫速度。具體是：由於磁盤物理結構的獨特設計，其併發的隨機寫（主要是因爲磁盤尋道時間長）非常慢，考慮到這一點，在BigTable模型中，首先會將併發寫的大批數據放到一個內存表（稱爲“memtable”）中，當該表大到一定程度後，會順序寫到一個磁盤表（稱爲“SSTable”）中，這種寫是順序寫，效率極高。說到這，可能有讀者問，隨機讀可不可以這樣優化？答案是：看情況。通常而言，如果讀併發度不高，則不可以這麼做，因爲如果將多個讀重新排列組合後再執行，系統的響應時間太慢，用戶可能接受不了，而如果讀併發度極高，也許可以採用類似機制。

（5）設計一個高併發系統，說明架構和關鍵技術要點。

方案：分佈式系統中的核心的服務器的實現。可以是http服務器，緩存服務器，分佈式文件系統等的內部實現。下邊主要從一個高併發的大型網站出發，看一個高併發系統的設計。下邊是一個高併發系統的邏輯結構：

1）緩存系統：緩存是每一個高併發，高可用系統不可或缺的模塊。常見的緩存系統：Squid(前端緩存)、Ehcache(對象緩存系統)，動態頁面靜態化（頁面緩存）

2）負載均衡系統：負載均衡策略有隨機分配，平均分配，分佈式一致性hash等。軟件負載均衡有：基於DNS的負載均衡、基於LVS的負載均衡和基於lptables的負載均衡。硬件負載均衡：路由上配置nat實現負載均衡、對萬網一個虛擬ip，內網映射幾個內網ip。數據庫負載均衡：數據庫集羣等。

（6）有25T的log(query->queryinfo)，log在不段的增長，設計一個方案，給出一個query能快速返回queryinfo？

方案：1）建立適當索引；2）優化sql語句；3）實現小數據量和海量數據的通用分頁顯示存儲過程；4）合理選擇聚集索引

以上所有問題中凡是不涉及高併發的，基本可以採用google的三個技術解決，分別爲：GFS，MapReduce，Bigtable，這三個技術被稱爲“google三駕馬車”，google只公開了論文而未開源代碼，開源界對此非常有興趣，仿照這三篇論文實現了一系列軟件，如：Hadoop、HBase、HDFS、Cassandra等。

在google這些技術還未出現之前，企業界在設計大規模分佈式系統時，採用的架構往往是database+sharding+cache，現在很多公司（比如taobao，weibo.com）仍採用這種架構。在這種架構中，仍有很多問題值得去探討。如採用什麼數據庫，是SQL界的MySQL還是NoSQL界的Redis/TFS，兩者有何優劣？採用什麼方式sharding（數據分片），是水平分片還是垂直分片？據網上資料顯示，weibo.com和taobao圖片存儲中曾採用的架構是Redis/MySQL/TFS+sharding+cache，該架構解釋如下：前端cache是爲了提高響應速度，後端數據庫則用於數據永久存儲，防止數據丟失，而sharding是爲了在多臺機器間分攤負載。最前端由大塊大塊的cache組成，要保證至少99%（該數據在weibo.com架構中的是自己猜的，而taobao圖片存儲模塊是真實的）的訪問數據落在cache中，這樣可以保證用戶訪問速度，減少後端數據庫的壓力，此外，爲了保證前端cache中數據與後端數據庫中數據一致，需要有一箇中間件異步更新（爲啥異步？理由簡單：同步代價太高。異步有缺定，如何彌補？）數據，這個有些人可能比較清楚，新浪有個開源軟件叫memcachedb（整合了Berkeley DB和Memcached），正是完成此功能。另外，爲了分攤負載壓力和海量數據，會將用戶微博信息經過片後存放到不同節點上（稱爲“sharding”）。

這種架構優點非常明顯：簡單，在數據量和用戶量較小的時候完全可以勝任。但缺定早晚一天暴露出來，即：擴展性和容錯性太差，維護成本非常高，尤其是數據量和用戶量暴增之後，系統不能通過簡單的增加機器解決該問題。

於是乎，新的架構便出現了。主要還是google的那一套東西，下面分別說一下：

GFS是一個可擴展的分佈式文件系統，用於大型的、分佈式的、對大量數據進行訪問的應用。它運行於廉價的普通硬件上，提供容錯功能。現在開源界有HDFS(Hadoop Distributed File System)，該文件系統雖然彌補了數據庫+sharding的很多缺點，但自身仍存在一些問題，比如：由於採用master/slave架構，因而存在單點故障問題；元數據信息全部存放在master端的內存中，因而不適合存儲小文件，或者說如果存儲的大量小文件，那麼存儲的總數據量不會太大。

MapReduce是針對分佈式並行計算的一套編程模型。他最大的優點是：編程接口簡單，自動備份（數據默認情況下會自動備三份），自動容錯和隱藏跨機器間的通信。在Hadoop中，MapReduce作爲分佈計算框架，而HDFS作爲底層的分佈式存儲系統，但MapReduce不是與HDFS耦合在一起的，你完全可以使用自己的分佈式文件系統替換掉HDFS。當前MapReduce有很多開源實現，如Java實現Hadoop MapReduce，C++實現Sector/sphere等，甚至有些數據庫廠商將MapReduce集成到數據庫中了。

BigTable俗稱“大表”，是用來存儲結構化數據的，個人覺得，BigTable在開源界最火爆，其開源實現最多，包括：HBase，Cassandra，levelDB等，使用也非常廣泛。

除了google的這三家馬車，還有其他一些技術：

Dynamo：亞馬遜的key-value模式的存儲平臺，可用性和擴展性都很好，採用DHT（Distributed Hash Table）對數據分片，解決單點故障問題，在Cassandra中，也借鑑了該技術，在BT和電驢的中，也採用了類似算法。

虛擬節點技術：該技術常用於分佈式數據分片中。具體應用場景是：有一大坨數據（maybe TB級或者PB級），我們需按照某個字段（key）分片存儲到幾十（或者更多）臺機器上，同時想盡量負載均衡且容易擴展。傳統的做法是：Hash(key) mod N，這種方法最大缺點是不容易擴展，即：增加或者減少機器均會導致數據全部重分佈，代價忒大。於是乎，新技術誕生了，其中一種是上面提到的DHT，現在已經被很多大型系統採用，還有一種是對“Hash(key) mod N”的改進：假設我們要將數據分不到20臺機器上，傳統做法是hash(key) mod 20，而改進後，N取值要遠大於20，比如是20000000，然後我們採用額外一張表記錄每個節點存儲的key的模值，比如：

node1：0~1000000

node2：1000001~2000000

。。。。。。

這樣，當添加一個新的節點時，只需將每個節點上部分數據移動給新節點，同時修改一下這個表即可。

Thrift：Thrift是一個跨語言的RPC框架，分別解釋一下“RPC”和“跨語言”，RPC是遠程過程調用，其使用方式與調用一個普通函數一樣，但執行體發生在遠程機器上。跨語言是指不同語言之間進行通信，比如c/s架構中，server端採用C++編寫，client端採用PHP編寫，怎樣讓兩者之間通信，thrift是一種很好的方式。

linux安裝cuda和cudnn

模擬手機設備：使用 Playwright 實現移動端自動化測試

Mellanox網卡開啓SR-IOV

全面系統的AI學習路徑，幫助普通人也能玩轉AI

HTML 00 Tutorial

uni-app實現上拉加載

vue3編譯優化之“靜態提升”

又是一個月-20240513

flask 如何保證返回json有序

linux服務器設置ssh免密

系統設計題

cocos2d-x 3.0學習-使用Physicals創建物理世界

我的一個MFC小項目

C++11新特性

C++內存管理

https://yachay.unat.edu.pe/blog/index.php?comment_area=format_blog&comment_component=blog&comment_co

linux以太網驅動總結