プログラムの高速化・並列化サービスの事例

HECToRプロジェクト VOX-FEの速度改善

対象プログラム 骨格モデリング用途ボクセルベースFEMシミュレーション
アプリケーション名 VOX-FE
チューニング方法 HDF5フォーマットへ変換し、netCFD並列I/Oルーチンを実装
成果 ファイルサイズ190倍縮小、I/O時間は7倍高速化
[2015年11月掲載]

HECToR dCSE Teaによる大規模ボクセルベースFEMシミュレーションコードVOX-FEのI/O性能の改善

Michael Fagan , University of Hull
 Nick Johnson, Iain Bethune , Edinburgh Parallel Computing Centre (EPCC)
HECToR CSE Team, Numerical Algorithms Group Ltd (NAG)


英国の国立学術スーパーコンピューティング設備であるHECToR 向けのNAGの計算科学技術(CSE)サポートサービスと共に、EPCCのHPC専門家により、I/Oルーチンの並列化によって、ボクセルベースFEMシミュレーションコードVOX-FEのスケーラビリティーが改善されました。VOX-FE骨格モデリングスイートは、骨格構造の操作および筋肉に力を加えた結果の可視化に関するGUI、および、線形弾性問題を解いて骨格の応力とひずみを計算する並列有限要素(FE)ソルバーPARA-BMU、の2つのパーツから構成されます。VOX-FEの応用例には、切歯咬合でのヒト下顎(顎骨)モデルや、軸力下の大腿骨の応力理解などがあります。このような計算にはPARA-BMUのスケーラブルな実装が必要でしたが、そのI/Oルーチンが主たるボトルネックとなっていました。このプロジェクトによりそのI/O時間は最大7倍に減少しました。現在HECToR上で良好なスケーラビリティが示されており、新たな骨格モデリング・シミュレーションを飛躍的に進歩させました。

VOX-FEはハル大学Michael Fagan教授の医学生物工学グループにより開発された、ボクセルベース有限要素骨格モデリングスイートです。VOX-FEでは、コンピュータ断層撮影(CT-voxel)からの各ボクセルが、詳細情報の欠落なく直接有限要素へ変換されます。ボクセルデータを直接扱うことは、モデル構築を簡単化して、さらに骨格構造のモデリングに際しても利点を持ちます。しかしながらシミュレーションに含まれる有限要素数が膨大なため、大規模HPCリソースとPARA-BMUの並列バージョンを共に用いることが必須となります。

dCSE プロジェクトの成功について,ハル大学工学科のMichael Fagan教授は次のように述べています。「骨格は数桁のオーダーに渡るマルチスケール性を持つ極めて複雑な構造体です。骨格の生体メカニズムを完全に理解し模倣するには、その詳細を捉えることが肝要ですが、巨大なFEモデルを扱わねばなりません。このdCSEプロジェクトは、これらの膨大なファイルを扱う手法を提供してくれました。それは、前例のない解像度で全骨格のモデリングを可能にしただけでなく、骨格成長のモデリングや、次世代の整形外科的および歯科インプラントの最適化を可能にする、反復適合再モデリング・シミュレーションという選択肢も提供しました。」

HECToR
HECToR はResearch Councils を代行する EPSRC により管理されており、英国学術界の科学と工学をサポートする任務を負っています。エジンバラ大学にある Cray XT スーパーコンピュータはUoE HPCx 社によって管理されています。 CSE サポートサービスはNAG 社によって提供されており、高度なスーパーコンピュータの効率的な活用のために、ユーザは確実に適切なHPC専門家にコンタクトできます。CSEサポートサービスの重要な特徴は分散型CSE(dCSE)プログラムです。これは簡潔なピアレビューを経てユーザからの提案に応える、特定のコードのパフォーマンスとスケーラビリティに対処するプロジェクトです。dCSE プログラムは、伝統的なHPCユーザアプリケーションサポートとNAG によるトレーニングで補われる、約 50 の集中的プロジェクトから成り立っています。

これまでに完了した dCSE プロジェクトは、CSEの尽力により可能なコスト削減と新しい科学の優れた適用例をもたらしました。ここで報告されているVOX-FEプロジェクトは成功を収めたパフォーマンス改善であり、新たなサクセスストーリーとなっています。

プロジェクトの背景

VOX-FEは数年間に渡り、小規模ローカルクラスターで運用されてきました。しかしながら将来の大規模科学研究にはHECToRのリソースが必要であり、既存の共役勾配法ソルバーをよりスケーラブルな別のものに置き換えるべく、EPSRC資金のプロジェクト'大規模スパース系の新規の非同期アルゴリズムとソフトウェア'において研究が実施されています。このdCSEプロジェクトの目的は、I/Oルーチンを並列化することにより、PARA-BMU(有限要素ソルバー)中の性能ボトルネックを除去することです。これはデータ入出力に対して、並列化netCFDルーチンを実装して全ファイルサイズとファイルアクセス時間を削減するために、そのファイルをnetCDF-HDF5フォーマットへ変換することにより達成されます。

ハル大学工学科のMichael Faganはこのプロジェクトの調査主任でした。EPCCのNick JohnsonとIain Bethuneは、NAG CSEチームと密接な連携を取りながら、4人月でプロジェクトを遂行しました。

プロジェクトの結果

PARA-BMUへnetCFDとHDF5ライブラリを実装し、ファイルサイズはオリジナルと比較して190倍縮小し、I/O時間は7倍高速化しました。 フリーソフトのnetCFDと並列HDF5ライブラリを用いることは、既存のアプリケーションへ並列I/Oを追加する簡単な方法です。さらにnetCFDを用いることは、ファイルの圧縮と同時に、そのファイルの自在な取り扱いと別システムとの間のポータビリティも高めることになります。

PARA-BMUの新しい並列I/Oを用いた計算の全ウォールクロックは、現在シリアルI/Oを用いた場合よりも格段に優れています。HECToRフェーズ3の512MPIプロセスを用いたテストケースでは、単一コアに対して、シリアルI/Oの場合は約22倍、並列I/Oの場合は約90倍高速化しました。しかしながらPARA-BMUのソルバー単独の速度向上は約180倍となり、並列I/Oでまだ改善の余地がある事が示唆されています。

この開発結果はCCPForgeのVOX-FEトランクに公開され、現在ハル大学の研究者が利用可能です。これら結果はPARA-BMUの実行環境として、小規模サーバでなくHECToRで検証可能です。これは前例のない規模と精度で骨格モデリングを可能にします。


詳細なテクニカルレポートは以下で参照いただけます。
http://www.hector.ac.uk/cse/distributedcse/reports/

さらに詳しくお知りになりたい場合は、日本NAG株式会社 コンサルティンググループご相談窓口 https://www.nag-j.co.jp/nagconsul/toiawase.htm (あるいはメール:consul@nag-j.co.jp)までお問い合わせください。

関連情報
MENU
Privacy Policy  /  Trademarks