ベンチマークコンテスト結果

2007年3月26日
理化学研究所 情報基盤センター

1PC部門

インテル株式会社 並列分散技術部 小林 広和 様

マシン
  • HP rx3600
  • Itanium2 9050(1.6GHz, Dual Core, L3 24MB) x 2
  • 8GB Memory, DDR2 FSB533MHz
  • Intel C/C++ Compiler 10.0 Beta
スコア
  • スピードアップ: 15.8 倍
  • Origianl: 9.490 秒
  • Tuning: 0.599 秒
コメント
OpenMPにより並列化されていて、コード変更は非常にシンプルでした。その他にデータロードの順序を変更するために計算順序を変更して、定数部分をdefine文することで、コンパイル時に定数として最適化されやすいように変更されていました。効率としては約53%と非常に高い実行効率ですが、演算はL3キャッシュ上で実行されています。おそらく、積和の演算バランスの関係で、演算器が全て回ったとしても実行効率70%程度だろうことから、50%強という値は演算器がかなり上手く回っていることが予測されます。

無差別部門

インテル株式会社 並列分散技術部 堀越 将司 様

システム
  • Intel Endeavor クラスタ
  • CPU: 512 Socket (256 Nodes)
  • Xeon 5160 (3.0 GHz Dual Core), L2 4MB share
  • Memory: 8GB/node(DDR2-667)
  • Interconnect: InfiniBand
  • Mellanox MHGA28-XS/SilverStorm 9240
  • Compiler:Intel Fortran C/C++ 9.0
スコア
  • FDM: 958.335 GFLOPS(512 Cores)
  • ERI-MO: 5.511 Points(1024Cores)
コメント
FDMは512コアでおよそ1TFLOPSという性能が得られています。FDMはメモリ帯域が重要ですので、1Core/1Socketで測定されています。コアあたりの性能を見ると実効で約16%ですね。コード変更は出来ませんので、もう少し上がりそうですね。ERI-MOは今年から九大の稲富先生のコードを使わせて貰いました。このコードベクトル化が難しいコードです。1Pointの単位はRSCCの128CPUでの性能を基準にしたもので、5.5というのはちょっと低すぎない?という印象でしたが、後日最適化が十分ではない結果だったので、実際には14Pointsを越える値だったという連絡を頂きました。

後日談

1PC部門も無差別部門もインテルの2冠ということになった今年のベンチマークコンテストでした。まあ、毎年のことですが、レギュレーションの難しさ、ベンチマークコードの選択の難しさがありますね。1PC部門はオンキャッシュで全て動作するのはどうよ?とか、ベクトル化出来ないんじゃない?とか、、、来年も企画しますが、なかなか難しいなぁ。。と思いますねぇ。ただ、より良くなるように年々進んでいければと思う限りです。

  • 理化学研究所 情報基盤センター(情報基盤棟2F アクセス