高速化や並列化等のチューニングにおいては、コードの用途とチューニングの目的に応じた、適切な検証用のデータの用意とベンチマーク解析が重要となります。NAGチューニングサービスでは、弊社が最適化したコードがお客様の目的に応じた適切な結果を生成するかどうかを、お客様との直接のご相談を通してベンチマークデータを設定頂き、確実な性能と精度の検証を行います。
ここでは、NAGが直接実施あるいはお客様の開発をサポートしたHECToRプロジェクト(プロジェクトHP:http://www.hector.ac.uk/)での、チューニング作業に用いたベンチマークデータと結果についての代表的な事例をご紹介します。
この他の事例や、それらのより具体的な内容については事例一覧ページから詳細レポートをご覧ください。
流体解析分野
コード | BOFFS(Block overset Fast Flow Solver) [詳細レポート1、2] | ||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
利用分野 | 空気力学、ターボ機械、航空力学、空力音響 | ||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
解析対象 | 航空機タービン等の低圧ターボ(LPT)におけるリムシール、ラビリンスシール、遷移流を含むキャビティー流などの乱流解析 | ||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
チューニング | 作業1:圧縮性/構造LESコードに対する、ブロック間転送のMPI通信とブロック内計算でのOpenMP性能の改善 作業2:圧縮性/構造LESコードに対してMPIタスクへ複数ブロック割当てを可能にする 作業3:非圧縮性/構造LESコードに対して、三重対角行列ソルバー(TDMA、GS)にOpenMP並列によるred-black法を適用した性能改善 |
||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
ベンチマーク | 作業1: ・3Mグリッドと12M グリッドを4ブロックあるいは32ブロックで分割したメッシュデータを用いたサンプルデータ ・高圧タービンブレード(HPT)のブレードスパン方向に生成し剥離した大規模渦構造 ・定圧タービンブレード(LPT)の周期的後流より誘起される遷移と端壁の流れ解析 ・リムシール・キャビティ流の主通路側壁と剥離領域への影響解析 ・ラビリンスシールの回転壁近傍の高渦度と境界層流れ解析 作業2,3: ・50百万セル、108グリッドブロックを用いた亜音速噴流のLES ・12百万グリッド点、128ブロックの構造グリッド上の非定常流体 |
||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
結果 |
作業1:
作業2
作業3
|
コード | CABARET(Compact Accurate Boundary Adjusting high REsolution Technique) [詳細レポート] | ||||||||
利用分野 | 空気力学、ターボ機械、航空力学、空力音響 | ||||||||
解析対象 | 航空機フラップ/ジェット相互作用による騒音解析 | ||||||||
チューニング | 圧縮性/非構造LES/シリアルコードに対する、自動領域分割とOpenMP/MPIハイブリッド並列の実装 | ||||||||
ベンチマーク | ・51.2百万セルを用いた3D後方ステップベンチマーク ・3D後方ステップモデル:40000時間ステップ境界条件は層流、レイノルズ数=5000、マッハ数=0.1、グリッドサイズ80万点 |
||||||||
結果 |
|
コード | Code_Saturn [詳細レポート、要約] | ||||
利用分野 | 汎用流体解析 | ||||
解析対象 | 原子力熱水力発電、ガスおよび石炭の燃焼、ターボ機械、暖房、換気および空調など | ||||
チューニング | 汎用CFDコードに対する、並列計算向け領域分割パッケージの導入と調査 | ||||
ベンチマーク | ・122M個の四面体セル構造のDARPA-2潜水艦周囲の水流のシミュレーションに対して、Metis 5.0pre2, ParMetis 3.1.1, PT-Scotch 5.1, Zoltan (RIB) 3.0を用いて性能を比較 | ||||
結果 |
|
コード | DSTAR [詳細レポート] | ||
利用分野 | 空気力学、空力音響、乱流燃焼、多相乱流 | ||
解析対象 | 圧縮性/構造LES/DNSコードに対する、渦ダイナミクス、エントレインメント、ミキシング、乱流、蒸発液滴の間に存在する複雑な相互作用を持つ多相反応流 | ||
チューニング | 2DECOMP&FFTライブラリを用いた2次元ペンシル領域分割によるMPI並列化、各ローカルグリッド上の演算をOpenMP並列化、MPI-I/Oによる入出力処理の最適化、F77コードのF95へのリファクタリング | ||
ベンチマーク | 1536x1536x1536グリッド、18,432コアまでを測定 | ||
結果 |
|
コード | Incompact3D [詳細レポート] | ||
利用分野 | 空気力学、ターボ機械、空力音響、乱流研究 | ||
解析対象 | 産業用ミキサー,静音空気ブレーキ,空調,燃焼、マルチスケール/フラクタル物体により生成される乱流 | ||
チューニング | 非圧縮性/構造DNS/LESコードに対する、2D領域分割&FFTインターフェイスライブラリ'2DECOMP&FFT'の開発と実装による利用可能コア数の拡大 | ||
ベンチマーク | ・4096x4096x4096メッシュ、16384コアを使用 | ||
結果 |
|
コード | Transflow/StreamMD [詳細レポート] | ||||
利用分野 | マルチスケールモデリング、トライボロジー、化学工学 | ||||
解析対象 | 壁面滑り解析、表面組織と被覆研究、エキゾチックで複雑な液体の構成的モデリング、移動接触線問題の解析、乱流摩擦抵抗の低減など | ||||
チューニング | 連成基盤モジュールの開発:データのパッキングと通信のための内部ルーチン開発および、DNSやMDアプリケーションからアクセス可能なインターフェイスモジュール開発 | ||||
ベンチマーク | ・Transflow:MPIタスクあたり370,000グリッド、768コア ・StreamMD:3,317,760分子のレナード・ジョーンズ系、5000ステップ、1024コア ・連成:カノニカルせん断クエット流(参照文献による) |
||||
結果 |
|
コード | SWT/SS3F [詳細レポート、要約] | ||||
利用分野 | 空気力学、乱流研究 | ||||
解析対象 | SWT:非回転ひずみに対する流れのレスポンスや乱流クエットポアズイユ流、 SS3F:成層流内の渦ダイナミクスのシミュレーション | ||||
チューニング | 圧縮性/構造DNSコード/ブジネスク近似コードに対する、2DECOMP&FFTライブラリーによる2D領域分割の実装、FFTW3ライブラリへの置き換え、チェビシェフ変換ルーチン、メッシュの再番号付け | ||||
ベンチマーク | ・SWT:3072×325×1024グリッド ・SS3F:768×1536×3072グリッド | ||||
結果 |
|
物性科学分野
コード | CASINO [詳細レポート] | |||||||||||||||||||||||||||||
利用分野 | 物性科学、少数多体系電子状態 | |||||||||||||||||||||||||||||
解析対象 | 結晶、ナノクラスター、マクロ分子等、少数多体系電子状態の高精度計算 | |||||||||||||||||||||||||||||
チューニング | 拡散量子モンテカルロ法(DMC)におけるSHMEM利用による省メモリー化、単一配位計算内の電子数ループのOpenMP並列化によるハイブリッド並列化、I/O処理の最適化とMPI並列によるデータ分散処理の追加 | |||||||||||||||||||||||||||||
ベンチマーク | 1,536電子系 | |||||||||||||||||||||||||||||
結果 |
|
コード | CASTEP [詳細レポート] | ||||
利用分野 | 物性科学、固体、表面物性、ナノテクノロジー | ||||
解析対象 | セラミックス、半導体、金属、界面/表面等。無機及び有機光起電材料、表面での触媒反応、光ディスプレイ用の発光ポリマー材料、およびフェムト秒レーザ化学 | ||||
チューニング | 現状DFT法計算のシステムサイズNに対してO(N^2)でスケールするBFGS法メモリー要求量の削減のための、LBFGS(limited memory BFGS)法の実装 | ||||
ベンチマーク | 1000原子の水晶 | ||||
結果 |
|
コード | Chemshell [詳細レポート、要約] | ||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
利用分野 | 物性科学、量子化学、化学反応、触媒化学、表面化学、高機能性材料 | ||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
解析対象 | 不均一系触媒の構造と反応性の研究,バルク及び表面における欠陥と活性に関する物理及び化学プロセスや高度な機能性材料の研究 | ||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
チューニング | QMおよびMD外部プログラムを用いたQM/MM計算に対するタスクファーミング並列の実装 | ||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
ベンチマーク | ・有限差分へシアン計算:57原子のケイ酸VO3クラスター[B3LYP/GAMESS-UK、LANL2(413基底)およびTZVP(1032基底) ] ・NEB法による2構造間の最小エネルギーパス計算:アルミニウムがドープされた酸化亜鉛ZnOクラスタ表面上に吸着した二酸化炭素と2つの水素分子から成る、3207原子のクラスターのQM/MM計算を用いた、2つの異なるサイトに在るH-CO2のHの交換に関するエネルギー障壁の計算[QM領域は32原子、B97-1/GAMESS-UK、PVDZ(194基底)] ・確率的探索法によるポテンシャルエネルギー曲面上の大域的最小値計算:(ZnO)28ナノクラスター[B97-1/GAMESS-UK、PVDZ(560基底)、32構造を用いた] |
||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
結果 |
|
コード | CRYSTAL [詳細レポート] | ||||
利用分野 | 量子化学、材料化学、周期系分子計算 | ||||
解析対象 | 3次元結晶、2次元スラブ、2次元高分子、周期系、単独分子等の電子構造解析 | ||||
チューニング | 現状のHF/DFT法へ、O(N)の分割統治法とタスクファーミング並列処理を実装 | ||||
ベンチマーク | 10オングストローム立方体内の液体ネオン | ||||
結果 |
|
コード | DL_POLY_3 [詳細レポート] | ||||
利用分野 | 物性科学、固体化学、分子シミュレーション、ソフトマター等のMDシミュレーション研究 | ||||
解析対象 | 固体、水や生体分子等の系、ソフトマター等 | ||||
チューニング | 大規模MDシミュレーションにおいてボトルネックとなるI/Oに対する、MPI-I/O実装による改善 | ||||
ベンチマーク | NaClイオン:216,000個および1,728,000個 | ||||
結果 |
|
コード | DL_POLY_4 [詳細レポート] | ||||||
利用分野 | 物性科学、固体化学、生体分子シミュレーション、ソフトマター等のMDシミュレーション研究 | ||||||
解析対象 | 固体、生体分子、ソフトマター | ||||||
チューニング | ・並列リンクセルアルゴリズムの実装 ・DaFT内の1次元FFTを、スレッド化されたACMLルーチンで置き換える ・SHAKE/RATTLEアルゴリズムをOpenMP並列化する ・計算と通信のオーバーラップを実装 |
||||||
ベンチマーク | ・液体アルゴン:力場は12-6レナード-ジョーンズ・ポテンシャルのみ、原子256,000個、1辺210.36Åの立方体ユニットセル、カットオフ:15Å ・ナトリウム/カリウム・二ケイ酸塩ガラス:粒子数69,120個、カットオフ12.03Å、一辺96.72Åの立方体セル、Van Der Waals、Ewald項、3体項を含む ・水中の生体分子グラミシジン-A:99,120原子、カットオフ8Å、ユニットセルはa=94.6Åおよびc=112.7Åの正方晶形。上述の力場に加えてボンド結合を含む |
||||||
結果 |
|
コード | UKRMol-in [詳細レポート] | ||||||
利用分野 | 原子分子物理、宇宙物理、プラズマ物理、生体環境の損傷プロセス研究 | ||||||
解析対象 | DNAと電子の衝突計算、分子クラスターと電子の衝突計算、細胞中の生体物質からの電子散乱、陽電子-電子衝突 | ||||||
チューニング | 時間依存R行列法コードのハミルトニアンの構築と対角化における、spMV処理のOpenMP/MPIハイブリッド並列化、対角化ソルバーにSLEPcライブラリ導入 | ||||||
ベンチマーク | リン酸+水分子、122102次元ハミルトニアン行列、1.6188個の非零要素、64コア | ||||||
結果 |
結果 |
|
|
コード | VASP [詳細レポート] | ||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
利用分野 | 固体物理、表面、触媒等 | ||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
解析対象 | DFT法による物質の電子状態解析 | ||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
チューニング | スケーラビリティー改善のためにk点並列処理を実装する | ||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
ベンチマーク | ・パラジウム32原子中の水素欠陥。10k点。 ・酸化鉛(リサージ、α-PbO)のユニットセル。全4原子。108k点。 ・PbOユニットセル。128k点。 ・酸化鉛(リサージ、α-PbO)ユニットセル。全4原子。24k点。 ・フォノン計算。20k点。 |
||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
結果 |
地殻工学分野
生体工学分野
|