Arcane  v3.16.0.0
Documentation développeur
Chargement...
Recherche...
Aucune correspondance
ArcaneCheckpointModule.cc
1// -*- tab-width: 2; indent-tabs-mode: nil; coding: utf-8-with-signature -*-
2//-----------------------------------------------------------------------------
3// Copyright 2000-2022 CEA (www.cea.fr) IFPEN (www.ifpenergiesnouvelles.com)
4// See the top-level COPYRIGHT file for details.
5// SPDX-License-Identifier: Apache-2.0
6//-----------------------------------------------------------------------------
7/*---------------------------------------------------------------------------*/
8/* ArcaneCheckpointModule.cc (C) 2000-2020 */
9/* */
10/* Module gérant les protections/reprises. */
11/*---------------------------------------------------------------------------*/
12/*---------------------------------------------------------------------------*/
13
14#include "arcane/utils/ArcanePrecomp.h"
15
16#include "arcane/utils/ScopedPtr.h"
17#include "arcane/utils/StringBuilder.h"
18
19#include "arcane/ISubDomain.h"
20#include "arcane/EntryPoint.h"
21#include "arcane/Timer.h"
22#include "arcane/ITimeHistoryMng.h"
23#include "arcane/ModuleFactory.h"
24#include "arcane/ServiceUtils.h"
25#include "arcane/ICheckpointWriter.h"
26#include "arcane/ICheckpointMng.h"
27#include "arcane/Directory.h"
28#include "arcane/IParallelMng.h"
29
30#include "arcane/OutputChecker.h"
31#include "arcane/std/ArcaneCheckpoint_axl.h"
32
33/*---------------------------------------------------------------------------*/
34/*---------------------------------------------------------------------------*/
35
36namespace Arcane
37{
38
39/*---------------------------------------------------------------------------*/
40/*---------------------------------------------------------------------------*/
44class ArcaneCheckpointModule
45: public ArcaneArcaneCheckpointObject
46{
47 public:
48
49 ArcaneCheckpointModule(const ModuleBuilder& cb);
50 ~ArcaneCheckpointModule();
51
52 public:
53
54 virtual VersionInfo versionInfo() const { return VersionInfo(0,9,1); }
55
56 public:
57
58 virtual void checkpointCheckAndWriteData();
59 virtual void checkpointStartInit();
60 virtual void checkpointInit();
61 virtual void checkpointExit();
62
63
64 private:
65
66 OutputChecker m_output_checker;
67 Timer* m_checkpoint_timer;
68 ICheckpointWriter* m_checkpoint_writer;
69 String m_checkpoint_dirname;
70
71 private:
72
73 void _doCheckpoint(bool save_history);
74 void _dumpStats();
75 void _getCheckpointService();
76 void _setDirectoryName();
77 bool _checkHasOutput();
78};
79
80/*---------------------------------------------------------------------------*/
81/*---------------------------------------------------------------------------*/
82
83ARCANE_REGISTER_MODULE_ARCANECHECKPOINT(ArcaneCheckpointModule);
84
85/*---------------------------------------------------------------------------*/
86/*---------------------------------------------------------------------------*/
87
88ArcaneCheckpointModule::
89ArcaneCheckpointModule(const ModuleBuildInfo& mb)
91, m_output_checker(mb.subDomain(),"CheckpointRestart")
92, m_checkpoint_timer(0)
93, m_checkpoint_writer(0)
94, m_checkpoint_dirname(".")
95{
96 m_checkpoint_timer = new Timer(mb.subDomain(),"Checkpoint",Timer::TimerReal);
97 m_output_checker.assignIteration(&m_next_iteration,&options()->period);
98 m_output_checker.assignGlobalTime(&m_next_global_time,&options()->frequency);
99 m_output_checker.assignCPUTime(&m_next_cpu_time,&options()->frequencyCpu);
100}
101
102/*---------------------------------------------------------------------------*/
103/*---------------------------------------------------------------------------*/
104
105ArcaneCheckpointModule::
106~ArcaneCheckpointModule()
107{
108 delete m_checkpoint_timer;
109}
110
111/*---------------------------------------------------------------------------*/
112/*---------------------------------------------------------------------------*/
113
114void ArcaneCheckpointModule::
115checkpointInit()
116{
117 // Contrairement aux autres types de sortie, il faut remettre le temps
118 // CPU de la prochaine sortie à zéro car le temps CPU utilisé est de
119 // l'exécution courante.
120 m_next_cpu_time = options()->frequencyCpu();
121 info() << " -------------------------------------------";
122 info() << "| PROTECTION-REPRISE |";
123 info() << " -------------------------------------------";
124 info() << " ";
125 //info() << " Utilise le service '" << options()->checkpointServiceName()
126 // << "' pour les protections";
127 info() << " ";
128 m_output_checker.initialize();
129 info() << " ";
130 // Si les protections sont actives, vérifie que le service spécifié
131 // existe bien
132 if (options()->doDumpAtEnd()){
133 info() << "Protection required at the end of computations";
134 _getCheckpointService();
135 }
136}
137
138/*---------------------------------------------------------------------------*/
139/*---------------------------------------------------------------------------*/
140
141bool ArcaneCheckpointModule::
142_checkHasOutput()
143{
144 Real old_time = m_global_old_time();
145 Real current_time = m_global_time();
146 Integer iteration = m_global_iteration();
148
149 bool do_output = m_output_checker.check(old_time,current_time,iteration,cpu_used);
150 return do_output;
151}
152
153/*---------------------------------------------------------------------------*/
154/*---------------------------------------------------------------------------*/
155
156void ArcaneCheckpointModule::
157checkpointStartInit()
158{
159 m_next_global_time = 0.;
161 m_next_cpu_time = 0;
162
163 // Initialise le vérificateur de sortie. Il faut le faire ici si on
164 // veut sauver des choses à l'itération 1.
165 _checkHasOutput();
166}
167
168/*---------------------------------------------------------------------------*/
169/*---------------------------------------------------------------------------*/
177{
178 if (!options()->doDumpAtEnd())
179 return;
180
181 _doCheckpoint(false);
182 _dumpStats();
183
184 if (m_checkpoint_writer)
185 m_checkpoint_writer->close();
186 m_checkpoint_writer = 0;
187}
188
189/*---------------------------------------------------------------------------*/
190/*---------------------------------------------------------------------------*/
191
192void ArcaneCheckpointModule::
193_dumpStats()
194{
195 // Affiche statistiques d'exécutions
196 Real total_time = m_checkpoint_timer->totalTime();
197 info() << "Total time spent in protection output (second): " << total_time;
198 Integer nb_time = m_checkpoint_timer->nbActivated();
199 if (nb_time!=0)
200 info() << "Average time per output (second): " << total_time / nb_time
201 << " (for " << nb_time << " outputs";
202}
203
204/*---------------------------------------------------------------------------*/
205/*---------------------------------------------------------------------------*/
206
207void ArcaneCheckpointModule::
208_setDirectoryName()
209{
210 Directory export_dir = subDomain()->storageDirectory();
211 if (export_dir.path().null())
212 export_dir = subDomain()->exportDirectory();
213
214 Directory output_directory = Directory(export_dir,"protection");
215 IParallelMng* pm = parallelMng();
216 if (pm->isMasterIO())
217 output_directory.createDirectory();
218 pm->barrier();
219
220 m_checkpoint_dirname = output_directory.path();
221}
222
223/*---------------------------------------------------------------------------*/
224/*---------------------------------------------------------------------------*/
231_doCheckpoint(bool save_history)
232{
233 {
234 Timer::Sentry sentry(m_checkpoint_timer);
235 Timer::Phase tp(subDomain(),TP_InputOutput);
236 if (!m_checkpoint_writer)
237 _getCheckpointService();
238 if (m_checkpoint_writer){
239 Integer nb_checkpoint = m_checkpoints_time.size();
240 m_checkpoints_time.resize(nb_checkpoint+1);
241 Real checkpoint_time = m_global_time();
242 m_checkpoints_time[nb_checkpoint] = checkpoint_time;
243 m_checkpoint_writer->setCheckpointTimes(m_checkpoints_time);
244 m_checkpoint_writer->setBaseDirectoryName(m_checkpoint_dirname);
245 info() << "**** Protection active at time " << checkpoint_time
246 << " directory=" << m_checkpoint_dirname
247 <<" numéro " << nb_checkpoint << " ******";
248 subDomain()->checkpointMng()->writeDefaultCheckpoint(m_checkpoint_writer);
249 }
250 }
251 info() << "Protection write time (second): "
252 << m_checkpoint_timer->lastActivationTime();
253
254 // Sauve les historiques
255 if (save_history)
257}
258
259/*---------------------------------------------------------------------------*/
260/*---------------------------------------------------------------------------*/
261
262void ArcaneCheckpointModule::
263_getCheckpointService()
264{
265 ICheckpointWriter* checkpoint = options()->checkpointService();
266 if (!checkpoint){
267 StringUniqueArray valid_values;
268 options()->checkpointService.getAvailableNames(valid_values);
269 pfatal() << "Protections required but protection/restore service selected ("
270 << options()->checkpointService.serviceName() << ") not available "
271 << "(valid values: " << String::join(", ",valid_values) << ")";
272 }
273 m_checkpoint_writer = checkpoint;
274 _setDirectoryName();
275}
276
277/*---------------------------------------------------------------------------*/
278/*---------------------------------------------------------------------------*/
285{
286 bool do_output = _checkHasOutput();
287 if (!do_output)
288 return;
289
290 info() << "Protection required.";
291 // TEMPORAIRE:
292 // Contrairement a la protection en fin d'execution, celle-ci a lieu
293 // dans à la fin de la boucle en temps, mais avant que le numéro
294 // d'itération ne soit incrémenté. Si on reprend à ce temps,
295 // le numéro d'itération ne sera pas bon. Pour corriger ce problème,
296 // on incrémente ce nombre avant la protection et on le remet
297 // à sa bonne valeur après.
298 // SDC : ce probleme n'est pas constaté. Il me semble que c'est bien le numérod
299 // de l'itération courante qu'il faut sauver. Changé pour un problème de restart
300 // pour une application IFPEN (en interne Bugzilla 778.
301 // m_global_iteration = m_global_iteration() + 1;
302 _doCheckpoint(true);
303 // m_global_iteration = m_global_iteration() - 1;
304}
305
306/*---------------------------------------------------------------------------*/
307/*---------------------------------------------------------------------------*/
308
309} // End namespace Arcane
310
311/*---------------------------------------------------------------------------*/
312/*---------------------------------------------------------------------------*/
Generation de la classe de base du Module.
CaseOptionsArcaneCheckpoint * options() const
Options du jeu de données du module.
Arcane::VariableScalarInteger m_next_iteration
Variables du module.
ISubDomain * subDomain() const override
Sous-domaine associé au module.
IParallelMng * parallelMng() const override
Gestionnaire du parallélisme par échange de message.
virtual void checkpointCheckAndWriteData()
Vérifie s'il faut faire une protection à cet instant et l'effectue si nécessaire.
virtual VersionInfo versionInfo() const
Version du module.
void _doCheckpoint(bool save_history)
Effectue une protection.
virtual void checkpointExit()
Opérations de fin de calcul.
VariableScalarInt32 m_global_iteration
Itération courante.
VariableScalarReal m_global_cpu_time
Temps CPU utilisé (en seconde)
VariableScalarReal m_global_time
Temps actuel.
VariableScalarReal m_global_old_time
Temps précédent le temps actuel.
virtual void writeDefaultCheckpoint(ICheckpointWriter *writer)=0
Écrit une protection avec l'écrivain writer.
Interface du service d'écriture d'une protection/reprise.
virtual const IDirectory & storageDirectory() const =0
Répertoire de base des exportations nécessitant un archivage.
virtual ICheckpointMng * checkpointMng() const =0
Gestionnaire de protections.
virtual ITimeHistoryMng * timeHistoryMng()=0
Retourne le gestionnaire d'historique.
virtual const IDirectory & exportDirectory() const =0
Répertoire de base des exportations.
virtual void dumpHistory(bool is_verbose)=0
Sauve l'historique.
Gère les sorties basées sur un temps physique, temps CPU ou un nombre d'itération.
Chaîne de caractères unicode.
Positionne la phase de l'action en cours d'exécution.
Definition Timer.h:128
Sentinelle pour le timer. La sentinelle associée à un timer permet de déclancher celui-ci au moment d...
Definition Timer.h:89
Gestion d'un timer.
Definition Timer.h:62
Integer nbActivated() const
Retourne le nombre de fois que le timer a été activé
Definition Timer.h:222
@ TimerReal
Timer utilisant le temps réel.
Definition Timer.h:76
Real totalTime() const
Retourne le temps total (en secondes) passé dans le timer.
Definition Timer.h:216
TraceMessage pfatal() const
Flot pour un message d'erreur fatale en parallèle.
TraceMessage info() const
Flot pour un message d'information.
Informations sur une version.
Definition VersionInfo.h:46
Integer toInteger(Real r)
Converti un Real en Integer.
Definition Convert.h:45
-*- tab-width: 2; indent-tabs-mode: nil; coding: utf-8-with-signature -*-
Int32 Integer
Type représentant un entier.
double Real
Type représentant un réel.
UniqueArray< String > StringUniqueArray
Tableau dynamique à une dimension de chaînes de caractères.
Definition UtilsTypes.h:446