クラウドでのソリューションコストの最適化:分子動力学アプリケーションNAMDのベンチマーク

パフォーマンスと費用対効果について、3者間(Intel/AMD/NVidia)比較

原文:Optimizing for Cost-to-Solution in the Cloud: a Three-way NAMD Comparison Published 20/10/2020 By Phil Tooley

イントロダクション

NAMDはHPCベンチマークで人気のある選択肢であり、AMDIntelNvidia はすべて最近高性能を主張しています。Intelは最近、AVX-512を使用してNAMDを高速化するパッチを提供し、これらの最適化によりパフォーマンスが最大1.8倍向上し、最新のAMDハードウェアよりも優れていると主張しています。Intelは、AVX-512ベクターユニットと最新世代のIntel Xeon CPUの大容量キャッシュを非常に効率的に使用する「タイル」アルゴリズムを実装することにより、1.8倍のパフォーマンス向上を実現しました。これは、CUDA対応バージョンのNAMDで使用されているものと同じタイリングアルゴリズムのポートです。

どのくらいの速さで実行されますか?
いくらかかるでしょうか?

私たちは自分たちで、これらのパッチを試し、AMDとNvidiaの両方のハードウェアで、それぞれどのくらいのパフォーマンス向上が得られるかに興味を持っていました。特に、NAMDをクラウド環境で実行する場合には、「どれくらいの速度で実行できるか」だけでなく、「どれくらいのコストで実行できるか」という点に問題があることが多いので、これがどのような状況であるかを確認したいと思いました。

これを調べるために、AMDとIntelのHPCクラスのVMを使用してMicrosoft Azure上でベンチマークを行いました。

ベンチマーク

ベンチマークに使用したインスタンスタイプは次のとおりです。

benchmark instance types

これらのVMの仕様は、AMDとIntelが採用したさまざまなアプローチを反映しています。AMD EPYCプロセッサは、クロック速度の低い多数のコアを提供しますが、Intel Xeon CPUは、より高度なベクトル化ハードウェアを備えた少数の高速コアを提供します。(ここに表示されている価格は、これが公開されたときの「West US 2」地域のものですが、価格は地域や時間の経過とともに異なります。)

ベンチマークインスタンスはCentos 8.2イメージでプロビジョニングしました。NAMD 2.15a1パッケージとその依存関係は、Spack HPCパッケージマネージャを使用してインストールしました。

我々は、シングルノードベンチマークに最も適したベンチマークとして、ApoA1(92,224原子)とSTMV(1,066,628原子)を選択しました。通常、NAMDベンチマークの結果は、1日の計算時間(ns/day)あたりのシミュレーション時間がナノ秒単位で報告されます。しかし、我々は解決までのコストに関心があるので、シミュレーション時間のナノ秒あたりの計算コスト($/ns)で性能を計算する方がより有用です。各ベンチマークは、実行から実行へのばらつきを把握するために、各構成で10回実行しました。

結果

結果は、両ベンチマークとも最新のIntelの最適化により、NAMD 2.13と比較して約1.5倍のスピードアップを示しており、ApoA1ベンチマークではAMDと比較してIntelがパフォーマンスとコスト面で優位に立っていることを示しています。しかし、STMVについては、状況はそれほど明確ではありません。問題サイズが大きくなっても、HC44rs VM の時間当たりの価格が低いため、コスト効率の面ではインテルの方が優れた選択肢であることに変わりはないものの、AMD はインテルよりも性能面で優位に立っています。AMDの性能が優れているのは、EPYCベースのシステムで利用可能なメモリ帯域幅が大きいためかもしれないので、更なる調査をすることも興味深いと思います。

NAMDシミュレーションパフォーマンスの比較(Intel 対 AMD)

benchmark instance types

NAMDシミュレーション費用対効果の比較(Intel 対 AMD)

benchmark instance types

GPUを使った場合は?

最近では、GPUアクセラレーションを使用してNAMDを実行することが非常に人気があります。 これにより優れたパフォーマンスが得られますが、クラウドのGPUは高額になる可能性があります。 パフォーマンスとコスト効率の両方について、新しいIntel最適化がGPUを利用した場合と比べてどのような状況であるかを知りたいと思いました。

今回選んだGPU VMはNC6s v3タイプで、価格は3.06ドル/時間のものでした。これはAzureが提供する中で最も安価なGPU VMの1つで、NVIDIA V100カード1枚、112GBのRAM、6つのXeon E5-2690 v3 (Haswell)コアを搭載しています。これは、私たちが使用したCPUベースのVMと同等の価格ですが、CPUとRAMのリソースをGPUと交換したような構成となっています。この事は、NAMDのCUDAバージョンにCPUのボトルネックがまだある場合、パフォーマンスを妨げる可能性がある事を意味します。

NAMDシミュレーションパフォーマンスの比較(Intel 対 AMD)

benchmark instance types

NAMDシミュレーション費用対効果の比較(Intel 対 AMD)

benchmark instance types

最新の最適化を使用しても、GPUのNAMDはCPUの場合よりも大幅に高速であり、コスト効率が高い事がわかります。 AVXの最適化と同様に、GPUを使った場合のパフォーマンス上の利点は、STMVベンチマークが大きいほど大幅に低くなることもわかります。 これは、より大きな計算が、GPUを搭載したVMでCPUバウンドまたはメモリ帯域幅バウンドのいずれかであることを示唆しています。 STMVベンチマークは、多くのNAMDシミュレーションと比較して小規模である ため、より大きなシミュレーションを行った場合について、さらに検討することは非常に役立ちます。 これにより、さまざまな規模でのパフォーマンスまたはソリューションのコストに関して、どのようなハードウェアが良いのかが理解できます。

将来を見据えて、NAMDバージョン3用に開発されているGPUパフォーマンスの改善点をざっと見てみる価値があります。これらの改善は、残りのすべての計算をGPUに移植することを目的としており、暫定的なベンチマークでは、現在のバージョンの最大3倍のパフォーマンス改善を示しています。(以下)

NAMD3シミュレーションパフォーマンスの比較(Intel 対 AMD)

benchmark instance types

クラウドHPC移行サービス

NAGはクラウドHPC移行サービスHPCコンサルティングを提供しており、組織がクラウドとHPCのために数値計算アプリケーションを最適化するのを支援します。HPCに関するベンダーにとらわれない公平なアドバイスとNAGがクラウドへの移行をどのように支援できるかについては、HPCとクラウドのコンサルティングとサービスをご覧ください。

関連情報
MENU
Privacy Policy  /  Trademarks