高通量計算框架HTCondor(一)——概述

1. 正文

HTCondor是威斯康星大學麥迪遜分校構建的分佈式計算軟件和相關技術,用來處理高通量計算(High Throughput Computing )的相關問題。高通量計算中的Throughput應該是吞吐量的意思,也就是調度計算機資源的能力。與高性能計算(HPC)不同,高通量計算(HTC)應對的問題是在高性能的同時能夠長時間穩定運行的能力,並充分利用集羣或網絡內計算資源。長時間計算時,集羣或網絡內計算資源往往是不可靠的,這中間蘊含了計算資源管理和任務調度的問題。

具體來說,HTC的思想就是將規模的密集運算拆分成一個個的子任務,交給集羣計算機運算。HTCondor提供瞭如下功能:

  1. 發佈任務:根據設定的集羣內計算資源條件,將任務發佈到集羣計算機。
  2. 調度任務:任務能夠發送到滿足條件計算機中運行,或者遷移到另外一臺計算機。
  3. 監視任務:隨時監視任務運行的情況和計算資源的情況。
    注意拆分任務這一步還是需要用戶自己控制的,拆分合適粒度的並行任務,有助於最大程度的負載均衡。

除此之外,一個不能忽視的的問題就是磁盤IO的問題。HTC往往伴隨着海量數據,巨量數據的磁盤IO必定會造成性能瓶頸。HTCondor自帶了一種文件傳輸機制,發佈任務的時候能夠自動將數據發送到對應的機器中運行。當然,也可以嘗試搭配分佈式文件系統如NFS或AFS進行計算。

準備在這一系列博文中,通過一個具體的實例,總結下HTCondor的使用過程,也算對分佈式計算或者集羣計算有個感性的認識。

2. 目錄

1.高通量計算框架HTCondor(一)——概述
簡要介紹了高通量分佈式計算與HTCondor。
2.高通量計算框架HTCondor(二)——環境配置
詳細展示了HTCondor環境的搭建過程。
3.高通量計算框架HTCondor(三)——使用命令
介紹了HTCondor的使用環境,以及經常使用的命令。
4.高通量計算框架HTCondor(四)——案例準備
準備一個實際案例做分佈式計算。
5.高通量計算框架HTCondor(五)——分佈計算
使用一個實例進行簡單的分佈式計算。
6.高通量計算框架HTCondor(六)——拾遺
總結了使用HTCondor過程中的一些問題與建議。

3. 參考

[1]. 說說高通量計算(HTC)、高性能計算(HPC)和多任務計算(MTC)
[2]. HTCondor官網
[3]. Hadoop到底是幹什麼用的?
[4]. condor 使用詳解

4. 相關

代碼和數據地址

下一篇

發佈了73 篇原創文章 · 獲贊 10 · 訪問量 3萬+
發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章