百度C++工程師的那些極限優化（併發篇）

原創

2021-06-18 09:03

	local count	get value
bvar::IntRecorder	16	7
babylon::IntRecorder	1377	14
bvar::Percentile	938	28
babylon::Percentile	66	14

"}}},{"type":"heading","attrs":{"align":null,"level":2},"content":[{"type":"text","text":"4.4 併發隊列優化案例","attrs":{}}]},{"type":"paragraph","attrs":{"indent":0,"number":0,"align":null,"origin":null}},{"type":"paragraph","attrs":{"indent":0,"number":0,"align":null,"origin":null},"content":[{"type":"text","text":"另一個在多線程編程中經常出現的數據結構就是隊列，爲了保證可以安全地處理併發的入隊和出隊操作，最基礎的算法是整個隊列用鎖來保護起來。","attrs":{}}]},{"type":"paragraph","attrs":{"indent":0,"number":0,"align":null,"origin":null}},{"type":"image","attrs":{"src":"https://static001.geekbang.org/infoq/f2/f21cd4d99fb664c524dcd11ac07d752c.png","alt":"圖片","title":null,"style":[{"key":"width","value":"75%"},{"key":"bordertype","value":"none"}],"href":null,"fromPaste":true,"pastePass":true}},{"type":"paragraph","attrs":{"indent":0,"number":0,"align":null,"origin":null}},{"type":"paragraph","attrs":{"indent":0,"number":0,"align":null,"origin":null},"content":[{"type":"text","text":"這個方法的缺點是顯而易見的，因爲隊列往往作爲多線程驅動的數據中樞位置，大量的競爭下，隊列操作被串行很容易影響整體計算的並行度。因此一個自然的改進點是，將隊列頭尾分開保護，先將生產者和消費者解耦開，只追加必要的同步操作來保證不會過度入隊和出隊。這也是Jave中LinkedBlockingQueue所使用的做法。","attrs":{}}]},{"type":"image","attrs":{"src":"https://static001.geekbang.org/infoq/37/377222e55be09a8ae193f17d34d70512.png","alt":"圖片","title":null,"style":[{"key":"width","value":"75%"},{"key":"bordertype","value":"none"}],"href":null,"fromPaste":true,"pastePass":true}},{"type":"paragraph","attrs":{"indent":0,"number":0,"align":null,"origin":null}},{"type":"paragraph","attrs":{"indent":0,"number":0,"align":null,"origin":null},"content":[{"type":"text","text":"在頭尾分離之後，進一步的優化進入了兩個方向。首先是因爲單節點的操作具備了Lock Free化的可能，因此產生了對應的Michael & Scott無鎖隊列算法。業界的典型實現有Java的ConcurrentLinkedQueue，以及boost中的boost::lockfree::queue。","attrs":{}}]},{"type":"paragraph","attrs":{"indent":0,"number":0,"align":null,"origin":null}},{"type":"image","attrs":{"src":"https://static001.geekbang.org/infoq/a3/a39247e96942e6480ceca91157ed5b13.png","alt":"圖片","title":null,"style":[{"key":"width","value":"75%"},{"key":"bordertype","value":"none"}],"href":null,"fromPaste":true,"pastePass":true}},{"type":"paragraph","attrs":{"indent":0,"number":0,"align":null,"origin":null}},{"type":"paragraph","attrs":{"indent":0,"number":0,"align":null,"origin":null},"content":[{"type":"text","text":"而另一個方向是隊列分片，即將隊列拆解成多個子隊列，通過領取token的方式選擇子隊列，而子隊列內部使用傳統隊列算法，例如tbb:: concurrent_queue就是分片隊列的典型實現。","attrs":{}}]},{"type":"paragraph","attrs":{"indent":0,"number":0,"align":null,"origin":null}},{"type":"image","attrs":{"src":"https://static001.geekbang.org/infoq/1f/1f640d240642419bb09279e8e68a0256.png","alt":"圖片","title":null,"style":[{"key":"width","value":"75%"},{"key":"bordertype","value":"none"}],"href":null,"fromPaste":true,"pastePass":true}},{"type":"paragraph","attrs":{"indent":0,"number":0,"align":null,"origin":null}},{"type":"embedcomp","attrs":{"type":"table","data":{"content":"

	latency
boost::lockfree::queue	35075
tbb::concurrent_queue	4614

"}}},{"type":"paragraph","attrs":{"indent":0,"number":0,"align":null,"origin":null},"content":[{"type":"text","text":"對兩種方式進行對比，可以發現，在強競爭下，分片隊列的效果其實顯著勝過單純的無鎖處理，這也是前文對於無鎖技術真實效果分析的一個體現。","attrs":{}}]},{"type":"paragraph","attrs":{"indent":0,"number":0,"align":null,"origin":null},"content":[{"type":"text","text":"除了這類通用隊列，還有一個強化競爭發佈，串行消費的隊列也就是bthread::ExecutionQueue，它在是brpc中主要用於解決多線程競爭fd寫入的問題。利用一些有趣的技巧，對多線程生產側做到了Wait Free級別。","attrs":{}}]},{"type":"image","attrs":{"src":"https://static001.geekbang.org/infoq/5e/5e7656009d272358cbacf51292b8fb4e.png","alt":"圖片","title":null,"style":[{"key":"width","value":"75%"},{"key":"bordertype","value":"none"}],"href":null,"fromPaste":true,"pastePass":true}},{"type":"paragraph","attrs":{"indent":0,"number":0,"align":null,"origin":null}},{"type":"paragraph","attrs":{"indent":0,"number":0,"align":null,"origin":null},"content":[{"type":"text","text":"整個隊列只持有隊尾，而無隊頭。在生產側，第一步直接將新節點和當前尾指針進行原子交換，之後再將之前的隊尾銜接到新節點之後。因爲無論是否存在競爭，入隊操作都能通過固定的兩步完成，因此入隊算法是Wait Free的。不過這給消費側帶來的麻煩，消費同樣從一個原子交換開始，將隊尾置換成nullptr，之後的消費動作就是遍歷取到的單鏈表。但是因爲生產操作分了兩部完成，此時可能發現部分節點尚處於『斷鏈』狀態，由於消費者無從知曉後續節點信息，只能輪詢等待生產者最終完成第二步。所以理論上，生產/消費算法其實甚至不是Lock Free的，因爲如果生產者在兩階段中間被換出，那麼消費者會被這個阻塞傳播影響，整個消費也只能先阻塞住。但是在排隊寫入fd的場景下，專項優化生產併發是合理，也因此可以獲得更好的執行效率。","attrs":{}}]},{"type":"embedcomp","attrs":{"type":"table","data":{"content":"

	latency
tbb::concurrent_queue	4614
bthread::ExecutionQueue	2390

"}}},{"type":"paragraph","attrs":{"indent":0,"number":0,"align":null,"origin":null},"content":[{"type":"text","text":"不過爲了能利用原子操作完成算法，bthread::ExecutionQueue引入了鏈表作爲數據組織方式，而鏈表天然存在訪存跳躍的問題。那麼是否可以用數組來同樣實現Wait Free的生產甚至消費併發呢？","attrs":{}}]},{"type":"paragraph","attrs":{"indent":0,"number":0,"align":null,"origin":null},"content":[{"type":"text","marks":[{"type":"strong","attrs":{}}],"text":"這就是babylon::ConcurrentBoundedQueue所希望解決的問題了。","attrs":{}}]},{"type":"paragraph","attrs":{"indent":0,"number":0,"align":null,"origin":null}},{"type":"paragraph","attrs":{"indent":0,"number":0,"align":null,"origin":null},"content":[{"type":"text","text":"不過介紹這個隊列併發原理之前，先插入一個勘誤信息。其實這個隊列在《內存篇》最後也簡單提到過，不過當時粗略的評測顯示了acquire- release等級下，即使不做cache line隔離性能也可以保障。文章發表後收到業界同好反饋，討論發現當時的測試用例命中了Intel Write Combining 優化技術，即當僅存在唯一一個處於等待加載的緩存行時，只寫動作可以無阻塞提前完成，等緩存行真實加載完畢後，再統一提交生效。但是由於內存序問題，一旦觸發了第二個待加載的緩存行後，對於第一個緩存行的Write Combine就無法繼續生效，只能等待第二個緩存行的寫完成後，才能繼續提交。原理上，Write Combine技術確實緩解了只寫場景下的False Sharing，但是隻能等待一個緩存行的限制在真實場景下想要針對性利用起來限制相當大。","attrs":{}}]},{"type":"paragraph","attrs":{"indent":0,"number":0,"align":null,"origin":null}},{"type":"paragraph","attrs":{"indent":0,"number":0,"align":null,"origin":null},"content":[{"type":"text","text":"例如在隊列這個典型場景下，往往會同時兩路操作數據和完成標記，很可能同時處於穿透加載中，此時是無法應用Write Combine技術的。此外，能夠在緩存行加載週期內，有如此充分的同行寫入，可能也只有並無真實意義的評測程序才能做到。","attrs":{}},{"type":"text","marks":[{"type":"strong","attrs":{}}],"text":"所以從結論上講，通常意義上的多線程cache line隔離還是很有必要的。","attrs":{}}]},{"type":"paragraph","attrs":{"indent":0,"number":0,"align":null,"origin":null}},{"type":"image","attrs":{"src":"https://static001.geekbang.org/infoq/df/dfb7b918223150055c53fe4130a085eb.png","alt":"圖片","title":null,"style":[{"key":"width","value":"75%"},{"key":"bordertype","value":"none"}],"href":null,"fromPaste":true,"pastePass":true}},{"type":"paragraph","attrs":{"indent":0,"number":0,"align":null,"origin":null}},{"type":"paragraph","attrs":{"indent":0,"number":0,"align":null,"origin":null},"content":[{"type":"text","text":"回到babylon::ConcurrentBoundedQueue的設計思路上，其實是將子隊列拆分做到極致，將同步量粒度降低到每個數據槽位上。每個入隊和出隊請求，首先利用原子自增領取一個遞增的序號，之後利用循環數組的存儲方式，就可以映射到一個具體的數據槽位上。根據操作是入隊還是出隊，在循環數組上發生了多少次摺疊，就可以在一個數據槽位上形成一個連續的版本序列。例如1號入隊和5號出隊都對應了1號數據槽位，而1號入隊預期的版本轉移是0到1，而5號出隊的版本轉移是2到3。這樣針對同一個槽位的入隊和出隊也可以形成一個連續的版本變更序列，一個領到序號的具體操作，只需要明確檢測版本即可確認自己當前是否可以開始操作，並通過自己的版本變更和後續的操作進行同步。","attrs":{}}]},{"type":"paragraph","attrs":{"indent":0,"number":0,"align":null,"origin":null}},{"type":"paragraph","attrs":{"indent":0,"number":0,"align":null,"origin":null},"content":[{"type":"text","text":"通過同步量下放到每個元素的方式，入隊和出隊操作在可以除了最開始的序號領取存在原子操作級別的同步，後續都可以無干擾並行開展。而更連續的數據組織，也解決了鏈表存儲的訪存跳躍問題。生產消費雙端可併發的特點，也提供了更強的泛用性，實際在MPMC（Multiple Producer Mult iple Consumer）和MPSC（Multiple Producer Single Consumer）場景下都有不錯的性能表現，在具備一定小批量處理的場景下尤其顯著。","attrs":{}}]},{"type":"image","attrs":{"src":"https://static001.geekbang.org/infoq/35/3554fc6fcc2145de9d9097e1feea9af5.png","alt":"圖片","title":null,"style":[{"key":"width","value":"75%"},{"key":"bordertype","value":"none"}],"href":null,"fromPaste":true,"pastePass":true}},{"type":"paragraph","attrs":{"indent":0,"number":0,"align":null,"origin":null}},{"type":"paragraph","attrs":{"indent":0,"number":0,"align":null,"origin":null},"content":[{"type":"text","marks":[{"type":"strong","attrs":{}}],"text":"招聘信息：","attrs":{}}]},{"type":"paragraph","attrs":{"indent":0,"number":0,"align":null,"origin":null},"content":[{"type":"text","marks":[{"type":"strong","attrs":{}}],"text":"歡迎出色的C++ 工程師加入百度，與大神一起成長。關注同名公衆號百度Geek說，輸入內推即可，我們期待你的加入！","attrs":{}}]},{"type":"paragraph","attrs":{"indent":0,"number":0,"align":null,"origin":null}},{"type":"paragraph","attrs":{"indent":0,"number":0,"align":null,"origin":null},"content":[{"type":"text","marks":[{"type":"strong","attrs":{}}],"text":"推薦閱讀：","attrs":{}}]},{"type":"paragraph","attrs":{"indent":0,"number":0,"align":null,"origin":null},"content":[{"type":"link","attrs":{"href":"https://mp.weixin.qq.com/s?__biz=Mzg5MjU0NTI5OQ==&mid=2247494399&idx=1&sn=0516ad01baf50442933865d33e88e1af&chksm=c03eda83f749539562f223c320c86ce0d8092e4c1d793994fd602fae7cc986c9129f2b77c0ab&token=1987775079&lang=zh_CN&scene=21#wechat_redirect","title":null,"type":null},"content":[{"type":"text","text":"｜","attrs":{}}]},{"type":"link","attrs":{"href":"http://mp.weixin.qq.com/s?__biz=Mzg5MjU0NTI5OQ==&mid=2247489076&idx=1&sn=748bf716d94d5ed2739ea8a9385cd4a6&chksm=c03d2648f74aaf5e11298cf450c3453a273eb6d2161bc90e411b6d62fa0c1b96a45e411af805&scene=21#wechat_redirect","title":null,"type":null},"content":[{"type":"text","text":"百度C++工程師的那些極限優化（內存篇）","attrs":{}}]}]},{"type":"paragraph","attrs":{"indent":0,"number":0,"align":null,"origin":null},"content":[{"type":"link","attrs":{"href":"https://mp.weixin.qq.com/s?__biz=Mzg5MjU0NTI5OQ==&mid=2247494399&idx=1&sn=0516ad01baf50442933865d33e88e1af&chksm=c03eda83f749539562f223c320c86ce0d8092e4c1d793994fd602fae7cc986c9129f2b77c0ab&token=1987775079&lang=zh_CN&scene=21#wechat_redirect","title":null,"type":null},"content":[{"type":"text","text":"｜百度大規模Service Mesh落地實踐","attrs":{}}]}]},{"type":"paragraph","attrs":{"indent":0,"number":0,"align":null,"origin":null},"content":[{"type":"link","attrs":{"href":"https://mp.weixin.qq.com/s?__biz=Mzg5MjU0NTI5OQ==&mid=2247494399&idx=1&sn=0516ad01baf50442933865d33e88e1af&chksm=c03eda83f749539562f223c320c86ce0d8092e4c1d793994fd602fae7cc986c9129f2b77c0ab&token=1987775079&lang=zh_CN&scene=21#wechat_redirect","title":null,"type":null},"content":[{"type":"text","text":"｜","attrs":{}}]},{"type":"link","attrs":{"href":"http://mp.weixin.qq.com/s?__biz=Mzg5MjU0NTI5OQ==&mid=2247493116&idx=1&sn=90925b509f4d8bfedc7066f2317e3d9c&chksm=c03ed580f7495c9621068194b799dd7fcc9ebff535a6fa04aacf593eae549c8d500b06df57d1&scene=21#wechat_redirect","title":null,"type":null},"content":[{"type":"text","text":"一種基於實時分位數計算的系統及方法","attrs":{}}]}]},{"type":"paragraph","attrs":{"indent":0,"number":0,"align":null,"origin":null}},{"type":"paragraph","attrs":{"indent":0,"number":0,"align":null,"origin":null},"content":[{"type":"text","text":"---------- END ----------","attrs":{}}]},{"type":"paragraph","attrs":{"indent":0,"number":0,"align":null,"origin":null},"content":[{"type":"text","text":"百度Geek說","attrs":{}}]},{"type":"paragraph","attrs":{"indent":0,"number":0,"align":null,"origin":null},"content":[{"type":"text","text":"百度官方技術公衆號上線啦！","attrs":{}}]},{"type":"paragraph","attrs":{"indent":0,"number":0,"align":null,"origin":null},"content":[{"type":"text","text":"技術乾貨 · 行業資訊 · 線上沙龍 · 行業大會","attrs":{}}]},{"type":"paragraph","attrs":{"indent":0,"number":0,"align":null,"origin":null},"content":[{"type":"text","text":"招聘信息 · 內推信息 · 技術書籍 · 百度周邊","attrs":{}}]},{"type":"paragraph","attrs":{"indent":0,"number":0,"align":null,"origin":null},"content":[{"type":"text","text":"歡迎各位同學關注","attrs":{}}]}]}