ベンチマークコンテスト結果

2008年4月7日
理化学研究所情報基盤センター

1PC部門

青木尊之様¹⁾，小川慧様²⁾

1) 東京工業大学学術国際情報センター
2) 東京工業大学大学院

マシン： -SPE (読み：ばくそくえすぴーいー)

MotherBoard	：	MSI K9A2 Platinum
CPU	：	AMD Phenom 9600 (2.3GHz), 4GB DDR2-800
GPU	：	nVidia GeForce8800Ultra搭載ボード 4枚 MSI NX8800ULTRA-T2D768E-HD-OC 2枚 ELSA GD988-768ERU 2枚
OS	：	CentOS 5.1
Compier	：	CUDA SDK1.1，GCC4.1.2

スコア：

スピードアップ	：	53.1 倍
Original	：	8.431 秒
Tuning	：	0.158 秒

コメント：

GPUを利用した結果なのですが，構成を見ると来るところまで来たか，という印象です．1台のPCで50GFLOPS以上の実効性能を叩き出すマシンです．性能に対しても，更にここまでの環境を整えられたことに対しても敬意を表したいと思います．

システムはMSI K9A2 Platinum というPCI-Express(Gen2)×16レーンを4つも搭載したマザーボードにGeForce8800 Ultra(G8x系)を搭載したGraphic Boardを4枚搭載して実行されています(ただし，実際に実装されているPCI-ExpressGen2レーン数は32)．Graphic BoardもG90系が使えたはずですが，あえて1世代前のメモリバンド幅が広いものを用いておられます．そのうち2枚はオーバークロックバージョンで4枚の合計ピーク性能は約1.6TFLOPS(単精度)となります．ただ，2枚だけ少し早いのですが全体計算をする場合，遅い2枚に引きずられるようですが，それでも全体ピーク性能は1.5TFLOPSを越えています．それをNVIDIAが提供するGPU向けC言語のCUDAでプログラミングして動作させています．

4枚のGraphic Boardを使う関係上，袖領域をGraphic Board間でやりとりしますが，その際に発生するPCI-Expressを通したデータ通信がネックとなり，小さい計算サイズだと4枚までのスケーラビリティはあまり出てないようです．ちなみにLARGEサイズだと100GFLOPS弱の性能が得られているようです．

最後に，受賞講演として青木先生がお話された中で最も印象的だったことは，「昔ベクトル計算機を使っていて，こうプログラミングすればこんなに早くなるんだ．という感動をGPUプログラミングで再度体験した．」という点でした．膨大な演算能力を持つGPUがHPCのアプリケーション分野での利活用が進むためのパイオニアとして，今後の成果を期待しております．

無差別部門

CRAY Japan Inc. 西村成司様

システム：xt4

Machine	：	Cray XT4 (9 chassises, 812nodes, 3248Core)
CPU	：	AMD Opteron (2.2 GHz Quad Core), L2 1MB/Core
Memory	：	8GB/node (DDR2-800)
Interconnect	：	Cray SeaSter 3D Torus 7.6GB/s for each link
OS	：	UNICOS/lc 2.0
Compier	：	Cray XT ProgEnv 2.0 (PGI 7.1.2)

スコア：

FDM	：	2.22 TFLOPS (3200Cores)
ERI-MO	：	2.089 Points (16Cores)

コメント：

FDMは3200コア(800ソケット)でおよそ2.2TFLOPSという性能が得られています。2年前にXT3({9.6GFLOPS, 6.4GB/s}/Socket)のDual-Coreで受賞された際に2.14TFLOPSという値から見れば，多少の性能アップとなっています．大きな計算環境の性能値を知ることができる貴重な情報でした．FDMベンチマークはメモリ帯域が非常に重要ですが，今回のXT4({35.2GFLOPS, 10.7GB/s}/Socket)のBF比(メモリ帯域-理論演算性能の比率)は前回のXT3に比べてほぼ半分，また，前回は1Core/1Socketで測定されていますので，実質のBF比は1/4程度のメモリ帯域という条件での計測ということになります。そのあたりが2.22TFLOPSにとどまった理由かもしれません．

ERI-MOは昨年から九大の稲富先生のコードを使わせて貰いました。ただ，昨年と異なり入力データを小さなものに変更していますので，昨年との比較は出来ませんが，このコードはベクトル化が難しいコードです。また，考え方として，FMOの1フラグメントの計算を全CPUで処理するのは変である，という考えから，1フラグメント程度の計算量で16プロセスを利用するというしばりを入れています．本来はそれを何個か実行した場合を想定して，性能を出すべきものなのですが，今回は間に合いませんでした．1Pointの単位はRSCCの64CPUでの性能を基準にしたもので、2.1というのは十分早いですね．

後日談：

やはりレギュレーションの設定が難しいですねぇ．１PC部門もGPU4枚差しという，行くところまで行ったという感じです．今回のレギュレーションだと敷居が高くなっているというコメントも頂戴しました．来年度はもう少し工夫を凝らしてみたいと思います．