分佈式計算模式：流水線

計算機中的流水線技術是一種將每條指令拆分爲多個步驟，多條指令的不同步驟重疊操作，從而實現幾條指令並行處理的技術。

分佈式領域的流水線計算模式，參考了工業生產中的流水線作業模式，將一個任務分爲多個步驟執行，使得不同任務可以並行執行，從而提高系統效率。

輸入流水線（ETL)

TensorFlow運用了流水線模式對輸入數據進行預處理，也稱爲ETL流水線，它包括3個步驟：

機器學習流水線

一個典型的機器學習訓練模型按照流水線計算模式進行拆分，可以分爲5個步驟：

整個流水線示示意圖如下所示。

流水線模式和MapReduce中對任務劃分的區別？

首先它們劃分的粒度不同：

另外，它們劃分出來的子任務之間的關係也不同：

流水線計算模式和流計算有什麼區別？

流水線模式把一個問題分成不同的步驟，必須按照嚴格的順序處理，它的核心是錯開了時間，提高了時間利用率，但是最終結果是相同的。

流計算模式側重數據輸入方式和流動方向，處理數據時可以多方向流動，最終輸出不同的結果，在流計算的過程中，可能會用到流水線模式，把一個大的處理流程拆分成小的流程。

流計算對數據處理是實時的，流水線模式對數據處理可以是實時的，也可以是批處理方式。

流計算關注的是計算的實時性，對數據依賴性沒有流水線計算模式那麼高。

發表評論

所有評論

還沒有人評論，想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.

《分佈式技術原理與算法解析》學習筆記Day16