ベンチマークコンテスト結果 |
2009年4月2日
実行効率部門
- 額田 彰 様,青木 尊之 様
東京工業大学 学術国際情報センター - マシン:かがみん
-
CPU: AMD Phenom 9500 Quad-Core(2.2GHz), 8GB DDR2-1066 GPU: nVidia GeForce GTX280
ASUS ENGTX280/HTDP/1GOS: OpenSUSE 11.0 x86_64 Compier: gcc(SUSE Linux) gcc 4.3.1,CUDA SDK2.0 - ベンチマークスコア:0.51
-
実効性能:71.64 GFLOPS理論性能:933.1GFLOPS,メモリバンド幅:141.7GB/s
- コメント:
-
昨年に引き続き東工大グループの受賞となりました。昨年とはレギュレーションも異なりますので、マルチGPU構成での結果ではありませんでしたが,実行効率を高める工夫が随所に見られる結果で御応募頂きました。実際の所、2位の方とはスコアで0.01の差しかなく、非常に接戦を制した形で受賞となりました。両者が同じようなシステムで同じようなコーディングを行ったのですが、圧力変数pをテクスチャメモリに配置するなど,僅かに工夫が勝っていた結果と考えられます。
今年度のレギュレーションは実行効率を上げるために、いかにメモリバンド幅を効率よく使うかに主眼が置かれています。チューニングのベースとしては、富士通研究所の成瀬さんらの論文を参考にされて、さらにその上のチューニングを行ったとのこと。また、CUDAはあえてバージョン2.0 (2.1が出ているが)を利用されています。ただし、性能の再現性は使ったドライバのバージョンに非常に依存しているとのこと。
額田先生、青木先生らGPUのパイオニアの皆様のご尽力により、HPCの分野ではかなり市民権を得てきたGPUを使ったアプリケーション応用が今後さらに進みますことを期待しております.
無差別部門
- CRAY Japan Inc.
西村 成司 様 - マシン名:xt5
-
Machine: Cray XT5 (1072 nodes, 8576 cores) CPU: AMD Opteron Shanghai Processor (2.4 GHz Quad Core) Memory: 16GB/node (DDR2-800) Interconnect: Cray SeaSter 3D Torus 9.6GB/s (for each link) * 6 OS: Cray Linux Environment 2.2 Compiler: Cray XT ProgEnv 2.2 - FDM:
- 5.47 TFLOPS (8192 cores)
- ERI-MO:
- 11452.9 Points (8576 cores)
- コメント:
-
FDMは8,576コア(2,144ソケット)でおよそ5.5TFLOPSという性能が得られています。昨年はXT4({35.2GFLOPS, 10.7GB/s}/Socket)のQuad-Coreで受賞された際に2.22TFLOPSという値から見れば,およそ2.5倍の性能アップとなっています.1万コアに迫る大きな計算環境で実測値を知ることができる貴重な情報でした.実際の所、5TFLOPSを超えることができるベンチマークだったのか。というのを主催者側も始めて知る本当に良い機会になりました。
FDMベンチマークはメモリ帯域が非常に重要ですが,前々回,前回とほとんど性能が変わらなかった理由をメモリバンド幅がついて行かなかったのではないかと予測しましたが.今回のXT5({38.4GFLOPS, 12.8GB/s}/Socket)のBF比(メモリ帯域-理論演算性能の比率)は前回のXT4に比べてほぼ同じですので,コアあたりの性能が同じで,コア数が約2.5倍になって,性能としては2.5倍になるということになりました.コアあたりの性能は前回と変わっていないということになります.前回,前々回で性能が伸びなかったのはやはりメモリバンド幅が原因だったのでしょう.それに加えて,昔から言われていることですが、十分に遅延の小さなネットワークがあれば,差分系のコードはコア数分でスケールしていくようです.
ERI-MOは一昨年来から財団法人九州先端科学技術研究所稲富先生のコードを使わせて貰いました。ただ,昨年と異なり小さな計算が重い入力データを1コアで処理する時間を知る方が重要だという考え方になりましたので、昨年との比較は出来ませんが,並列性能という意味ではあまり変わりません。ただ、8000コア以上で実行した場合、ベース性能を1万ポイント以上上回る凄い性能となります。1PointはPentium-D1コアでの計測時間をベースにした値になっています。