POPプロジェクト事例:密度汎関数コードADFの性能分析

Sally Bridgwater, Nick Dingle, Jonathan Boyle, Wadud Miah
Numerical Algorithms Group
February 24, 2016


[2017年10月掲載]


1.背景


 お客様:Stan van Gisbergen博士、Software for Chemistry and Materials (SCM)
 アプリケーション:ADF
 言語:Fortran
 プログラミングモデル:MPI、POSIX共有メモリー配列
 使用入力データ:Riken_MirkoHF.run


 使用したADFバージョンはADF 2016.101、コンパイラはIntel compiler suite (16.0.3), Intel MPI (4.1.3.049)およびMKL (11.0.1)を用いました。分析には、MareNostrum3スーパーコンピュータのPOPパートナーPRACEの所有時間を用いて、ノード当たり16コアを常時使用しました。
 ADFは、分子の構造や反応性を予測するための密度汎関数法を用いた計算化学アプリケーションです。
 このレポートでは幾つかの非効率性が認められましたが、その中で負荷分散は、開発者が最も関心を持つ主要な問題です。本レポートはこの問題を第一に焦点を当て、詳細な分析を行っています。
 第二の問題は、コア数の増加に伴う通信効率の劣化です。MPIに掛かる全時間が極めて大きなものでしたが、その原因の殆どが負荷分散によるものでした。しかしながら、通信効率において僅かですが重要な劣化が存在していました。そこで、Serialization EfficiencyとTransfer Efficiencyを評価して、より詳細な原因を分析しました。
 このレポートは、大規模な負荷分散の原因特定を目的とし、性能利得の定量的推定により問題を解決するための示唆を提供するものです。


2.アプリケーションの効率


 POPプロジェクトでの効率指標は、付録Aで詳細に定義されています。関心領域(ROI)は、本来の関心領域内の2回の反復計算のみに再定義されました。これは、ROIに含まれている初期化を省略して分析対象を狭めているため、効率の一部の意味が異なっています。



図1:128コアを用いたROI1の、計算(左図)とMPI呼出し(右図)のduration


図2:128コアを用いたROI2の、計算(左図)とMPI呼出し(右図)のduration


図3:効率表。性能が低い値は赤(80%以下)、良い場合は緑(80%以上)で示す。(*)16コアの値を基準とした。

 図3は、コア数の増加につれて全ての効率が低下することを示しますが、Load BalanceとComputational Scalabilityが最も劣化が大きくなっています。また、ROI2の方が全体で劣化しています。
  Computational Scalabilityは両方のROIで急激に低下し、Instruction ScalabilityとIPC Scalabilityだけはゆっくりと低下しています。Frequency Scalabilityがこの非効率性の主な要因です。つまり、作業量と作業完了サイクルレートは大きく低下していませんが、作業を完了するまでの時間が大幅に増加しています。この事についてはセクション3.2:Computational Scalabilityで詳細に分析します。
  Communication Efficiencyは両方のROIで良好な数値です。これをTransfer EfficiencyとSerialization Efficiencyで見てみると、これらはコア数増加と共に低下しますが、通信間の依存性に比べて、データ転送に費やされる時間によって若干効率が低下します。Transfer Efficiencyは両方のROIで似ており、コア数の増加と転送データ量の増加によってのみ低下します(MPI_Allreduceを使用するため)。テータ転送とMPIについてはセクション4:通信の負荷分散で詳細に調査します。


3.計算の負荷分散


 このセクションでは、図3に示された計算の非効率性に焦点を当てます。指標については、Load Balanceとthe Computational Scalabilityという2つが問題となりました。ここでは、より性能が悪い方のROI2に焦点を絞って分析を進めます。2つのROIはよく似た傾向を示しているため、分析は両方に関係します。


3.1 Load Balance


 ADFは、グローバルマスタ(ランク0)とノードマスタ(ノード内先頭ランク)間の通信を通してコアへ作業が均等に分散することを仮定します。これは、ノードがより多くの作業を割り当てられることをグローバルマスタに通知します。ノード内の他のコアは、MPI通信ではなくPOSIX共有メモリー配列を通してこれらの作業にアクセスします。これは自動的にはプロファイリングツールに捕捉されないため、共有配列の作成、破棄、ロック、アンロックを行うCコードscm fipc.cの呼出しの前後に、計測機能が追加されました。これは、ロックが利用可能になるのを待っていた時間は含まれず、ロックやアンロック自体に費やされた時間のみであることに注意してください。
 図4は、ROI2の共有メモリールーチン呼出しのタイムラインです。ほとんどの呼出しはロックとアンロックであることが解ります。これらは2つのパターンに分類され、一つは呼出し間に空白を持つストライプ状のもので、もう一つは解像度を超えた周期で呼び出されて稠密なブロックに見える部分です。



図4: 128コアを用いたROI2のPOSIX共有メモリー配列ルーチン呼出しのタイムライン

 これらブロックでは、共有メモリー配列のロック/アンロック呼出しが頻繁に行われますが、これはノードのマスタランクがグローバルマスタからデータを得る際のMPI_Recvによる待ち時間に相当するものです。図5は、この呼出しと待ち合わせに関する最初のセクションを拡大したものです。
 これを見ると、ノードマスタは次の仕事を得るのに長い待ち合わせが発生し、ノード内の他のコアへ長いアイドル時間を生じさせていることが解ります。プロファイリングツールの制限により、このアイドル時間は効率指標の中の通常の作業としてカウントされています。グローバルマスタのチェックと作業割当ての頻度を増やすことが推奨されます。可能であればこのための専用スレッドを使用したほうがよいでしょう。



図5:128コアを用いたROI2のタイムライン。共有メモリアレイへのアクセスと、ノードマスターより新しい作業を取得する際のMPI_Recvの待ち時間を示す。通信は黄色で示されている。

 この他にMPI_Recvから言えることは、いくつかのノードは、さらに作業を問い合わせる以前に他のノードより時間が掛かっています。これが示唆するのは、与えられた作業量が同じでないか、あるいは幾つかの作業が他の作業より計算集約的であるかのどちらかです。最初の2つのノードが依然として実行中に、他のノードは作業を終え、グローバルマスタから作業は供給されずに、MPI_Allreduce呼出しの待ち合わせ状態となります。つまり、最初の2つのノードがその担当作業を完了する前に、他にやるべき作業が枯渇してしまっていることが示唆されます。
 おそらく事前に課される計算負荷は、最初の数ノードは大きな計算量を与えられて時間が長くなるが、後のノードになるにしたがってより少ない時間で済むようになっています。これで、3番目から8番目のノードが、アイドル時間とマスターが更に作業を問い合わせる間に非常に少ない作業量を持つことが説明されます。
 ROI2の2つの繰返しは同じパターンを持ちます。この不均衡は計算に用いるデータによるものと推察され、より均等に作業を分割する方法があるかずです。work stealingアルゴリズムは問題解決の1手法です。

 ここで、このアイドル時間を考慮してLoad Balanceの最低値を得るために、マスターノードがMPI_Recvで待ち合わせをするかどうかに関わらず、ノード内のコアはアイドルすると仮定します。これはアイドル時間の過大評価ですが、有用な最低値を得ることが可能です。
 この過程を用いると、Load Balance Efficiencyの最低値を0.45と見積もることが出来ました。元の値は0.60です。よって明らかにLoad Balanceが非効率性の大きな要因であることが解ります。もしLoad Balanceが完璧であれば、繰返しのセクションで約2倍の性能改善の可能性があります。負荷分散やMPI_Recv待ち合わせはROI1でも同じパターンが示されています。


3.2 Computational Scalability


 ROI2のマイクロ秒あたりのサイクル数(frequency)が図6に示されています。ここでは、その減少にシステマチックなパターンがあり、同一ノード内のコアは同じ振舞いをします。最も性能の悪いノードは、ピーク性能の約1/2のサイクル数で動作しており、マシンの最小周波数を大幅に下回っています。



図6:128コアでのROI2:a) マイクロ秒あたりのサイクル数の分散、低い値は黄色で示される。b)赤破線部分の分散を拡大した。

 ROI1とROI2は同じパターンを示します。この指標の低下を示すノードは、アイドル時間と作業待ち合わせ時間を持つコアと同じものです。コアがアイドルすれば、サイクルはハードウェアカウンタにカウントされず、frequencyは低下します。
  frequency低下はMPI呼出しに挟まれた全計算セクションに対してレポートされます。これは、プロファイリングツールがデータを捕捉する方法によるもので、共有メモリ配列アクセスは考慮されず、欠落したサイクルは全計算セクションで平均化されます。
 コアの周波数は実行中は低下しないので、これはアプリケーションの改善には影響は有りません。コアがアイドル状態にならないように負荷バランスが改善された場合、この現象は発生しないと考えられます。


4. 通信の負荷分散


 このセクションでは、通信の不均衡を調査して改善の余地を探ります。Transfer Efficiencyが低下する場合、もしそれを回避できなければ大きなコア数での性能に大きな制約になります。ROI間には類似性があるため、ここでもROI2のみを調査します。ここで議論する通信は、共通かつ最も時間の掛かるMPI呼出しのみに限ります。また、ノードマスタは通信パターンの相違から他のランクとは区別します。
 ROI2のタイムラインには、短いが頻発するMPI呼出しのセクションが有ります。このセクションは呼び出し回数が多いため区別して扱います。このMPI呼出しはhfexchangeytulsmodule_mp_sortfunctionsbyrange内で生じており、図7に示されています。
 図8は、主なメッセージの平均サイズと一回の繰返しで送信される回数を示します。コア数に関わらずメッセージサイズが一定であることが解ります。データの殆どは、特にノードマスタ間でMPI_Allreduceを用いて転送されます。これは、Transfer Efficiencyの低下は、コア数の増加に従い集団通信量が増加することが原因であることを示します。



図7:128コアを用いたROI2の1繰返し。MPI呼出しパタンを緑で示し、拡大した。


Cores Average bytes per call Average number of calls
MPI_Send MPI_Allreduce
node_masters
MPI_Allreduce
others
MPI_Send MPI_Allreduce
node_masters
MPI_Allreduce
others
16 0 6,154,367 356,398 0 74 18
32 8 6,154,367 356,398 58 74 18
64 8 6,154,367 356,398 52 74 18
128 8 6,154,367 356,398 44 74 18
図8:ROI2の1繰返しのMPI呼出し情報


Cores bytes per call number of calls
16 4 445
32 4 445
64 4 445
128 4 445
図9:ROI2の1繰返しのMPI呼出し情報。hfexchangeytulsmodule_mp_sortfunctionsbyrangeから呼び出される。


 MPI_Sendは極めて小さなサイズで、頻繁には呼ばれず、ノード間へ作業を配布するのに用いられます。ノードマスタのMPI_Recvの長い待ち合わせ時間については、既にセクション3.1で説明しました。
 作業の殆どは、セクション3で述べたPOSIX共有メモリーを用います。コア間で共有メモリ配列へのアクセス時間は、同じようにCommunication Efficiencyを低下させます。128コアでは、Communication Efficiencyは0.930から0.894へ低下しますが、以前悪くない性能です。しかしながらこれは、ロック待ち合わせ時間を考慮していません。
 図10は、理想的なネットワーク(レイテンシーがゼロ、無限に広いバンド幅)を用いた場合のROI2性能の改善を示しますが、理想と実際の値の間には、数か所で1種類のMPI時間の改善しか在りません。これは、MPIの時間の殆どが負荷分散で生じているためです。しかしながら、他のランクがバリアで待機している間にMPI Allreduceを実行するノードマスタのパターン(図10の緑色の囲み)が明らかに減少しています。これは、待ち合わせ時間の主な原因がその領域で転送されるデータの量であることを示します。



図10:128コアの場合のROI2のMPI呼出し。a)計測値、b)理想値。緑と黄色の囲みが理論値が優れている部分。

 理想ケースで明らかに減少しているもう一つの領域は、MPI_BcastとMPI_Allreduceを短く頻繁に呼び出す部分です(図10の黄色の囲み)。これが示唆するのは、この領域では転送データ量が小さいことから(図9を参照)、レイテンシーが大きな問題であることです。大量の小さなメッセージ転送によるレイテンシーは性能に重大な影響を及ぼしますが、これらメッセージを複数の大きな通信へパッキングすることで改善は可能です。
 適切な通信効率メトリックを用いて、理想と観測タイムライン間の差異は合理的に小さなものであると推定できました。これは、MPIの時間の大部分がload imbalanceによって生じていることが要因です。


5. 分析の纏めと推奨事項


  1. 分散作業量の不均衡のため、Load Balance Efficiencyは低い。
    1. ノードマスタはグローバルマスタへ作業分配を問い合わせるが返信の待ち合わせ時間が長く、ノード内の他のコアのアイドル時間を増大させている。
    2. 幾つかの指標は、新たな作業リクエストのためのノードマスタにおける時間の分散により、計算的な作業配分の不均衡を示す。最初のノード時間が最も長く、最後のノード時間は比較して短時間だった。
  2. Computational Scalabilityは低いが、これはコアがアイドル待ちする時間による見かけ上のものであることが判明した。
  3. Communication Efficiencyは一般的に良好である。
    1. ノードマスタ間でMPI_Allreduceを用いた大きなデータに対する待ち合わせが存在する。
    2. 多数の小さなMPI_BcastとMPI_Allreduce呼出しのレイテンシーによる影響がある。

5.1 推奨事項


  1. 可能であるならば、多数のMPI_BcastとMPI_Allreduce呼出しをパッキングして、通信レイテンシーの影響を削減する。
  2. 負荷バランスアルゴリズムを改善する
    1. グローバルマスタは、ノードマスタにより送られる作業要求の通信をより頻繁にチェックすべきである。
    2. 作業をその数でなくて計算量を基に分割する。これにはwork stealingアルゴリズムが役立つ。
    3. 一般性を保証するために分散対象の作業サイズを自動的にチューニングするのが良い。
    4. 負荷が均等である場合、2倍の性能改善の可能性がある。
  3. POSIX共有メモリー配列のロック時の待ち合わせ時間を分析する。

付録:POPプロジェクトで定義された効率指標


 POP効率指標は、時間を基にした指標とハードウェアを基にした指標の2種に分類されます。全ての指標は、100%が理想値で、0%に向かって性能が劣化するように定義されています。80%が良好な性能のガイドラインです。

A.1 時間ベース指標

 これらの指標は階層構造を持ち、準最適なパフォーマンスの根本原因を絞り込むために使用されます。図11を参照してください。



図11:POP指標の階層構造。ハードウェア指標は青色の箱で示されている。円で囲んだ十字記号は、親の指標が下の階層の子指標の積であることを示す。

Global Efficiency (GE) : これはアプリケーションの関心領域の全効率です(GE=PE*CS)。

  1. Computational Scalability (CS) : これは、全コアに渡る全計算時間のスケール性を示します。強スケーリングでは、コア数に関わらず解くべき問題は同じです。つまり、全計算時間はコア数に依らず一定であるべきです。スケール性の評価に用いる参照値は、最小コア数での計算時間です。
  2. Parallel Efficiency (PE) : これは用いた並列手法の効率の指標です(PE=LB*CE)。
    1. Load Balance (LB) : これは、計算時間がどのくらいコア間に均等に分散されているかを示す指標です。各コアの計算時間を用いてこれを表現できます(LB=Ave/Max)。
    2. Communication Efficiency (CE) : これは、最も性能の良い実行コアの計算に費やされた実行時間の割合を測定します(CE=max(time in computation/runtime))。
      1. Serialization Efficiency (SE) : これは、待機時間の原因となるランク間の依存関係により、CEがどれくらい劣化しているかを測定します。理想的なネットワークのシミュレーションを使用して計算されるため、データの転送に費やされたMPI時間は存在しません。
      2. Transfer Efficiency (TE) : これは、データ転送に掛かった時間によりCEがどの程度劣化したかを見る指標です(TE=CE/SE)。

A.2 ハードウェアベース指標

 2種のハードウェア指標が計算されます。これらからは、演算スケーラビリティに対するより詳細な洞察と非効率性に関する要因が得られます。これらは共に、最小コア数での値を基準としたスケール性を示します。

Instruction Scalability:これは、演算における命令数がコア数に伴いどのくらい変化するかを示します。強スケーリングにおいては、これは如何なるコア数でも同じ問題を解いていることから一定となるのが理想です。もし効率が減少する、つまりより多くの命令が実行されるようであれば、コア数の増加に対して問題をさらに分割するのに余分な作業が発生しているか、複数コア上で冗長な計算が行われている可能性があります。計算量が増えれば計算時間も増加します。

Instructions per Cycle (IPC) Scalability:これは、計算のスループットがコア数の増加に対してどのように変化するかを示します。もし計算が遅くなれば計算時間が増加します。

Frequency Scalability:これは、マシンのクロックスピードがコア数の増加に対してどのように変化するかを示します。理想的にはこれは定数であるべきです。




補足事項:この作業はPOPプロジェクト(*)の任務として担当したNAGのスタッフが実施しました。

(*)EUのHPCプロジェクトPerformance Optimisation and Productivity (POP)は、科学技術研究に対するHPC技術の利用を促進を目的として欧州委員会によって推進されているHPC領域の8つのセンターオブエクセレンスの1つです。POPは2015年に開始され、バルセロナ・スーパーコンピューティングセンターに設置されました。POPプロジェクトには、NAG、ユリッヒおよびシュツットガルト・スーパーコンピューティングセンター、アーヘン大学、Teratecがパートナーとして選ばれました。
POPは、EU内の組織に無料でサービスを提供しており、並列ソフトウェアのパフォーマンスを分析かつ問題を特定してパフォーマンスの改善を提案するプロジェクトです。性能分析ツールとして、バルセロナ・スーパーコンピューティングセンターで開発されたExtraeとParaverが主に用いられています。


関連情報
MENU
Privacy Policy  /  Trademarks