用於大數據處理的高性能計算的4個實現步驟

  在大數據領域,並非每家公司都需要高性能計算(HPC),但幾乎所有使用大數據的企業都採用了Hadoop式分析計算。

  HPC和Hadoop之間的區別很難區分,因爲可以在高性能計算(HPC)設備上運行Hadoop分析作業,但反之亦然。 HPC和Hadoop分析都使用並行數據處理,但在Hadoop 和分析環境中,數據存儲在硬件上,並分佈在該硬件的多個節點上。在高性能計算(HPC)中,數據文件的大小要大得多,數據存儲集中。高性能計算(HPC)由於其文件體積龐大,還需要更昂貴的網絡通信(如InfiniBand),因此需要高吞吐量和低延遲。

  企業首席信息官的目的很明確:如果企業可以避免使用HPC並只將Hadoop用於分析,可以執行此操作。這種方式成本更低,更易於員工操作,甚至可以在雲端運行,其他公司(如第三方供應商)可以運行它。

  不幸的是,對於需要高性能計算(HPC)進行處理的生命科學、氣象、製藥、採礦、醫療、政府、學術的企業和機構來說,全部採用Hadoop是不可能的。由於文件規模較大,處理需求極其嚴格,採用數據中心或與採用雲計算都不是很好的方案。

  簡而言之,高性能計算(HPC)是一個在數據中心內部運行的大數據平臺的完美示例。正因爲如此,企業如何確保其投資巨大的硬件完成需要的工作成爲了一個挑戰。

  大數據Hadoop和HPC平臺提供商PSCC Labs首席戰略官Alex Lesser表示:“這是必須使用HPC來處理其大數據的許多公司面臨的挑戰。大多數這些公司都有支持傳統IT基礎設施,他們很自然地採用了這種思路,自己構建Hadoop分析計算環境,因爲這使用了他們已經熟悉的商用硬件,但是對於高性能計算(HPC)來說,其響應通常是讓供應商來處理。”

對大數據以及人工智能概念都是模糊不清的,該按照什麼線路去學習,學完往哪方面發展,想深入瞭解,想學習的同學歡迎加入大數據學習qq羣:458345782,有大量乾貨(零基礎以及進階的經典實戰)分享給大家,並且有清華大學畢業的資深大數據講師給大家免費授課,給大家分享目前國內最完整的大數據高端實戰實用學習流程體系 。從java和linux入手,其後逐步的深入到HADOOP-hive-oozie-web-flume-python-hbase-kafka-scala-SPARK等相關知識一一分享!


  考慮採用高性能計算(HPC)的公司需要採取以下四個步驟:

  1.確保企業高層對高性能計算(HPC)的支持

  企業的高層管理人員和董事會成員不一定要求是高性能計算領域的專家,但絕不能沒有他們的理解和支持。這些管理人員都應該對高性能計算(HPC)有足夠的瞭解,以及可以爲企業明確支持可能制定的大規模硬件、軟件和培訓投資。這意味着他們必須在兩個方面受到教育:(1)HPC是什麼,爲什麼它與普通分析不同,需要採用特殊的硬件和軟件。(2)爲什麼企業需要使用HPC而不是原有的分析來實現其業務目標。這兩項教育工作都應由首席信息官(CIO)或首席開發官(CDO)負責。

  Lesser表示:“採用HPC的最積極的公司是那些相信他們真正的科技公司,他們指的是亞馬遜AWS雲服務,最初只是亞馬遜公司的零售業務,現在已成爲一個龐大的利潤中心。”

  2.考慮一個可以自定義的預配置硬件平臺

  PSSC Labs等公司提供預打包和預配置的HPC硬件。“我們有一個基於HPC最佳實踐的基本軟件包,可以與客戶一起根據客戶的計算需求定製這個基礎軟件包。”Lesser說,他指出幾乎每個數據中心都必須進行一些定製。

  3.瞭解回報

  與任何IT投資一樣,HPC必須符合成本效益,並且企業應該能夠獲得投資回報(ROI),這一點在管理層和董事會的頭腦中已經闡明。“一個很好的例子是飛機設計。”Lesser說。 “高性能計算(HPC)的投資規模很大,但是當公司發現它可以使用HPC進行設計模擬並獲得5個9的準確性,並且不再需要租用物理風洞時,就會很快收回了HPC投資。”

  4.培訓自己的IT員工

  HPC計算對企業的IT員工來說不是一個簡單的過渡,但是如果企業要運行內部部署操作,則應該讓團隊定位以實現自給自足。

  最初,企業可能需要聘請外部諮詢人員才能開始工作。但諮詢任務的目標應始終是雙重目標:(1)讓HPC應用程序繼續運行,(2)將知識傳授給員工,以便他們能夠接管操作。企業不應該滿足於此。

  HPC團隊的核心是需要一名數據科學家,他能夠開發高性能計算所需的高度複雜的算法來回答企業的問題。它還需要一名精通C +或Fortran技能,並能夠在並行處理環境中工作的強大系統的程序員,或者是網絡通信專家。

  “最重要的是,如果企業每兩週要運行一次或兩次工作,就應該到雲端來承載其HPC。”Lesser說,“但是如果企業正在使用HPC資源和運行作業,如製藥公司或生物學公司可能每天多次運行,那麼在雲端運行就會浪費資金,應該考慮運行自己的內部操作。”

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章