曙光歷軍:高性能計算機排名不是軍備競賽

“TOP500上第十的排名,對曙光而言,可以說是有意義,也可以說是沒意義”,儘管拿到了超級計算機TOP500排名第十的位置,但歷軍並沒有表現出太多的喜悅,對他而言,此刻的心情,是一種在完成了自己既定目標後的釋然。歷軍也一如繼往地保持着一顆平常心。“幾年前也許還有將排名進一步上提的想法,但現在我們看得很淡了,我們在測試過程裏有那麼一個原則,就像奧運比賽一樣,得第無所謂,關鍵是要發揮自己的水平。”
實際上,對最近幾年的TOP500排行榜而言,其已被譽爲衡量國際高性能計算機應用狀況的“晴雨表”。而正是這些TOP選秀點燃了中國高性能計算機市場的導火線,無論是高性能計算市場的封疆大吏,還是高性能計算的王侯新貴,都在這榜單上展開了競爭。
   
曙光的排名第十
“我個人認爲如果還時間,有可能將系統的效率發揮到80%”,就象是奧運會參賽,儘管表現出的是對排名的不太在意,但能感覺到的是,爲了拿到第十的位置,曙光此次還是頗費了一番周折。歷軍同時透露了一些鮮爲人知的故事:曙光在排行一個半月時間裏最初測出來系統性能發揮僅爲65%,後來在規則允許的情況下不斷在硬件、軟件上進行優化,每一次的數據都有5%左右的提高。包括系統的配製、一些驅動程序的測試算例,都是有一些優化的餘地,最後的結果是180.6萬億次,5000A發揮了78%左右的效率。而到後面也幾乎沒時間了,如果再有一禮拜,有可能達到到190萬億次。
對WCCS 2003表現很吃驚
“打死我也沒想到WCCS可以測到這樣的效率”,對於此次在TOP500排名測試中WCCS在5000A上的表現,歷軍顯得相當吃驚,“一開始的時候,我們計劃的是測測看就行了,測的好可以發佈,因爲當時大家都認爲用WCCS測是不好的,但其結果卻讓我們大吃一驚,78%效率的表現也讓我們開始重新審視WCCS。”
對於具體的操作系統,歷軍坦然,不是選擇哪款的問題,而是具體優化的問題,就連曙光自己也不能斷定跑出來之後到最終再優化哪一個更好,但他同時也認爲,即使表現再好也就是兩個百分點左右了,不可能再高了。“兩個百分點已經不重要了,如果大家都去追求這兩個百分點,那就變成競賽了,單純爲了排名從應用的角度來看沒什麼意義了。”
至於此次測試爲什麼選用Windows的WCCS,歷軍表示,目的是爲了把高性能計算機應用的複雜度有所降低。用戶現在面臨一次信息技術和其他的相關的科學結合的變革,也就是未來很多用戶真正高水平用戶不是來自於計算機行業,而是搞核研究、搞基因的,對他們來說,要想學成Linux的高手,相對還是不那麼容易。所以曙光這次用Windows的測試,實際上我們也是實驗一下,其實我們Windows和Linux全部都測過,只不過最後我們最後感覺Windows在部署還比較方便,這也是它的優點。
“這是非常重要的一點,這也證明了曙光5000A可以良好的支持Windows的操作系統,給我們用戶一個選擇,當然我個人認爲目前在這種超大規模的應用領域,包括在軟件、應用軟件方面可能還有一些很多的工作要做,可能還有一個路程。但是至少我認爲,在中小規模的HPC上,類似個人HPC上,Windows也是一種選擇。”
下一代高性能將大量採用GPU
“千萬億次需要全新的體系架構”,在完成了百萬億次的產品研發後,千萬億次已經成爲了歷軍的下一步目標。“在我看來,目前曙光5000A的基本結構,在cluster上已經走到了頭。未來的高性能計算機有幾個發展趨勢:一是通用和專用產品相結合的方式,第二是專用處理器大規模應用,第三針對專門的問題或者應用軟件去設計機器,使這個機器更容易的改變形態,適合某一類應用。”
回顧過去的發展,歷軍認爲,高性能計算機的技術發展史是由專用機到通用機,再由通用機到專用機的發展,但完全的專用機可能不太會出現,大家會在通用機的基礎平臺上去提高專門的領域裏的計算性能獲得超高性能。所以曙光5000A通用系統逐步的會再往專用的方向邁一步,比如協處理器——GPU有可能是下一代高性能計算機中大量採用的技術,這代表了一種方向。
實際上,在成功研發出了5000A以後,6000產品已經自然而然地進入了曙光的下一個工作重點,據歷軍透露,曙光內部代號曙光6000應該是第三種設計方式。當然,圍繞曙光6000產品應該還有一系列的研究開發的任務,其中也包括高性能處理器、高性能交換芯片、更高的密度、更好的散熱的機械結構的設計,包括專門的應用軟件的移植優化,曙光也將會投入更多的力量,畢竟應用軟件是限制高性能計算髮展的重要瓶頸。
歷軍表示,曙光的下一個階段規劃是分兩條腿走,一條是做硬件,二是根據機器幫助客戶搞應用。因爲下一代的高性能計算機可能不像現在已經完全通用了,裏面有很多部件一般用戶是不會用的。所以曙光將硬件軟件兩個方面去做。
高性能的市場化之路
2008年,對曙光而言,除了5000A的發佈,另一個重點的看點也就是PHPC100,也就是面向個人的高性能計算機產品。
“下一步,曙光會發布基於曙光HPP架構的不同種類的產品,這些產品將面向石油勘探、數字媒體、化學、基因等不同領域,他們的規模沒有5000A大,可能是10萬億次,也可能是50萬億次。”
 歷軍介紹說,今年9月份,曙光推出了個人高性能計算機——曙光PHPC100。“兩個月以來,曙光在全國進行了第一波市場推廣,結果證明效果非常好,有大量的用戶需要這個產品,它不但小巧,而且性價比非常高。”
 “目前,高性能計算在中國還沒有走向普及,而曙光的PHPC將推動這一大潮。過去用小型機的客戶,萬全可以從曙光的PHPC體驗到高性能計算機帶來的新感受。從發佈到現在的兩個月時間,已經有好幾十臺產品銷售出去了。”
 在歷軍的規劃下,從個人HPC到面向各種專業應用的專用機再到曙光5000A通用機,曙光已經形成了從低到高的一個完整的高性能計算機產品線系列。
高性能是硬件帶動應用發展
“對於高性能計算機的生產廠商而言,我們需要知道我們的用戶關心什麼,在這個排名背後更真實的內容,如高性能產品的系統能力、穩定性及產品的商業化工藝水平等等”,歷軍表示,質疑的聲音從未停止過,比如中國是否需要千萬億次計算機等等,是不是又是勞民傷財的形象工程?
“實踐證明從先進國家的角度看,中國的高性能計算機不是多了,而是少了。爲什麼?因爲TOP500的前十名裏有九臺都在美國,都比曙光的強。”對於業界的質疑,歷軍談出了自己的觀點。
他認爲,美國的高性能計算機需求和中國其實是一樣的,比如能源、軍事、航空航天、材料、飛行器等等,中國與其的差距僅僅是在應用水平上,但高性能計算機從來不是應用帶動機器發展,而一直都是機器帶動應用發展。這就象是首先需要蓋一個鳥巢然後才能開奧運會的道理一樣,因爲需要有一個舞臺。
“數學家如果碰到硬件的瓶頸自然就擋在這裏了,沒有辦法去做自己的研究,所以一定是機器走先。當然也不能走的太遠,和應用有一代的差距我覺得是完全可以的”,歷軍談到這裏時舉了曙光4000A作爲例子,比如4000A,現在已經成功地應用於神六、神七、包括大飛機設計,所以機器帶動應用這是一個現階段必須走的一個必經之路。“我認爲國內仍然需要先有一個平臺放在那裏,科學家才能在這個平臺上逐步的把方法、模型做好,這是一個基礎。”
但這並不意味着曙光要去做商業軟件,歷軍認爲,曙光需要做的是這些科學家所做不了的事,比如有一個算法,這個算法怎麼在計算機裏獲得更高的計算效率,這是曙光可以做的。如何從過去軟件的靠程序迭代的方式做的模型,如何用硬件在邏輯門實現計算,而不是像以前都是C語言的程序,這樣效率太低。
“這是曙光能做的,在一些已經成型的軟件或者模型裏,曙光來幫助他們優化,讓高性能計算機的計算效率能夠更高。”
採訪後記:歷軍談話中透露出中國人、中國企業特有的底氣,“在市場上,曙光5000A應該說可以代表着中國高性能計算機研製的最高水平,而且從國際上看,似乎也不落後。從本屆TOP500前十名排名來看,除了曙光一家中國公司,其他全是美國公司。美國這方面投入需求似乎比我們要強,但是從他們的產品看,我們似乎沒在結構上、技術上輸給他們很多,就是有那種數量級的差,我們跟他們已經很接近了,下一代機器有可能跟他們沒有區別了,甚至某些點上有一些超越。”
發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章