14#include "arcane/utils/ArcanePrecomp.h"
15#include "arcane/utils/TraceAccessor.h"
16#include "arcane/utils/String.h"
17#include "arcane/utils/ScopedPtr.h"
18#include "arcane/utils/IOException.h"
19#include "arcane/utils/TraceInfo.h"
20#include "arcane/utils/Array.h"
21#include "arcane/utils/NotImplementedException.h"
22#include "arcane/utils/ITraceMng.h"
24#include "arcane/Directory.h"
25#include "arcane/ICheckpointMng.h"
26#include "arcane/ISubDomain.h"
27#include "arcane/IParallelMng.h"
28#include "arcane/IParallelReplication.h"
29#include "arcane/IRessourceMng.h"
30#include "arcane/IVariableMng.h"
31#include "arcane/IIOMng.h"
32#include "arcane/IXmlDocumentHolder.h"
33#include "arcane/XmlNode.h"
34#include "arcane/ICheckpointReader.h"
35#include "arcane/ICheckpointWriter.h"
36#include "arcane/ServiceBuilder.h"
37#include "arcane/IObservable.h"
38#include "arcane/CheckpointInfo.h"
39#include "arcane/SubDomainBuildInfo.h"
40#include "arcane/MeshPartInfo.h"
42#include "arcane/VariableCollection.h"
43#include "arcane/IVariable.h"
44#include "arcane/IMeshModifier.h"
45#include "arcane/ItemGroup.h"
46#include "arcane/IItemFamily.h"
47#include "arcane/IMainFactory.h"
48#include "arcane/IPrimaryMesh.h"
58extern "C++" ISubDomain*
59arcaneCreateSubDomain(ISession* session,
const SubDomainBuildInfo& sdbi);
75 ~CheckpointMng()
override;
129CheckpointMng(ISubDomain* sd)
130: TraceAccessor(sd->traceMng())
132, m_write_observable(IObservable::createDefault())
133, m_read_observable(IObservable::createDefault())
176 m_sub_domain->variableMng()->readCheckpoint(reader);
198 String info_file_name(m_sub_domain->exportDirectory().file(
"checkpoint_info.xml"));
200 IIOMng* io_mng = m_sub_domain->ioMng();
202 CheckpointInfo checkpoint_info = _readCheckpointInfo(bytes,info_file_name);
203 return checkpoint_info;
213 _readCheckpoint(checkpoint_info);
222 CheckpointInfo checkpoint_info = _readCheckpointInfo(bytes_infos,
"unknown");
223 _readCheckpoint(checkpoint_info);
232 String buf_name2 = buf_name;
233 if (buf_name2.
null())
234 buf_name2 =
"unknown";
235 CheckpointInfo checkpoint_info = _readCheckpointInfo(bytes_infos,buf_name2);
236 return checkpoint_info;
250 checkpoint_info.setSubDomainRank(rank);
252 checkpoint_info.setReplicationRank(replication_rank);
257 XmlNode doc_node = xml_doc->documentNode();
259 ARCANE_FATAL(
"Can not read file '{0}' containing checkpoint/restart informations",
265 checkpoint_info.setNbSubDomain(nb_checkpoint_sub_domain);
268 checkpoint_info.setNbReplication(nb_checkpoint_replication);
272 if (service_name.
null()){
274 "The file '{0}}' doesn't have "
275 "the name of the protection/restore service used "
276 "(attribute /checkpoint-info/service/@name)", info_file_name);
278 checkpoint_info.setServiceName(service_name);
279 String service_directory = service_elem.
attrValue(
"directory");
280 checkpoint_info.setDirectory(service_directory);
284 XmlNode last_index_attr = times_node.
attr(
"last-index");
285 if (last_index_attr.null())
286 ARCANE_THROW(IOException,
"missing attribute 'last-index'");
288 XmlNode last_time_attr = times_node.attr(
"last-time");
289 if (last_time_attr.null())
290 ARCANE_THROW(IOException,
"missing attribute 'last-time'");
292 Real last_time = last_time_attr.valueAsReal();
293 checkpoint_info.setCheckpointTime(last_time);
295 Integer last_index = last_index_attr.valueAsInteger();
296 checkpoint_info.setCheckpointIndex(last_index);
298 XmlNode meta_data_node = service_elem.
child(
"meta-data");
299 if (meta_data_node.null())
301 checkpoint_info.setReaderMetaData(meta_data_node.value());
303 return checkpoint_info;
312 _readCheckpoint(checkpoint_info);
321 String service_name = checkpoint_info.serviceName();
322 if (service_name.
null())
325 String service_directory = checkpoint_info.directory();
341 info() <<
"Using the checkpoint/restart service"
342 <<
" <" << service_name <<
"> (implement ICheckpointReader2)";
343 if (has_changing_sub_domain)
344 _applyNbSubDomainChange(checkpoint_info,s.get());
348 cri.setParallelMng(pm);
349 cri.setReader(s.get());
350 _readCheckpoint(cri);
357 if (has_changing_sub_domain)
358 ARCANE_FATAL(
"The number of sub-domains/replica in this run is different "
359 "from the number in checkpoint but the service specified "
360 "for checkpoint {0} does not handle this case",service_name);
362 ServiceFinder2T<ICheckpointReader,ISubDomain> sf2(app,m_sub_domain);
363 Ref<ICheckpointReader> checkpoint_reader(sf2.createReference(service_name));
365 if (!checkpoint_reader.get()){
366 ARCANE_FATAL(
"The service specified for checkpoint/restart ({0}) is not available",
370 info() <<
"Using the checkpoint/restart service <" << service_name <<
">";
371 Real last_time = checkpoint_info.checkpointTime();
372 Int32 last_index = checkpoint_info.checkpointIndex();
374 checkpoint_reader->setCurrentTimeAndIndex(last_time,last_index);
376 String meta_data = checkpoint_info.readerMetaData();
377 checkpoint_reader->setReaderMetaData(meta_data);
378 checkpoint_reader->setBaseDirectoryName(service_directory);
401 if (m_sub_domain->allReplicaParallelMng()->isMasterIO()){
402 Directory export_directory(m_sub_domain->exportDirectory());
403 String info_file(export_directory.
file(
"checkpoint_info.xml"));
404 std::ofstream ofile(info_file.
localstr());
418 m_sub_domain->variableMng()->writeCheckpoint(writer);
441 XmlNode doc = info_document->documentNode();
447 root.
setAttrValue(
"nb-sub-domain",String::fromNumber(nb_rank));
448 root.
setAttrValue(
"nb-replication",String::fromNumber(nb_replica));
456 XmlElement meta_data_elem(service_info,
"meta-data",reader_meta_data);
457 XmlElement checkpoints_time_elem(root,
"times");
459 XmlNode info_root = info_document->documentNode().documentElement();
464 if (nb_checkpoint>0){
465 checkpoints_time_elem.
setAttrValue(
"last-time",String::fromNumber(checkpoints_time[nb_checkpoint-1]));
466 checkpoints_time_elem.
setAttrValue(
"last-index",String::fromNumber(nb_checkpoint-1));
469 checkpoints_time_elem.
clear();
470 for(
Integer i=0, is=checkpoints_time.
size(); i<is; ++i ){
471 XmlElement elem(checkpoints_time_elem,
"time");
472 elem.
setAttrValue(
"value",String::fromNumber(checkpoints_time[i]));
475 info_document->save(infos);
489 Int32 nb_checkpoint_sub_domain = ci.nbSubDomain();
490 Int32 nb_checkpoint_replication = ci.nbReplication();
495 if (nb_checkpoint_sub_domain<1 || nb_checkpoint_replication<1){
496 info() <<
"Invalid or missing partitionning info in checkpoint.";
499 info() <<
"Reading checkpoint nb_sub_domain=" << nb_checkpoint_sub_domain
500 <<
" nb_replication=" << nb_checkpoint_replication;
501 MeshPartInfo current_part_info(makeMeshPartInfoFromParallelMng(m_sub_domain->parallelMng()));
503 Int32 nb_rank = current_part_info.nbPart();
504 Int32 nb_replication = current_part_info.nbReplication();
505 bool has_different_sub_domain =
false;
506 if (nb_rank!=nb_checkpoint_sub_domain){
507 has_different_sub_domain =
true;
510 if (nb_replication!=nb_checkpoint_replication){
512 "Bad number of replication ({0} in checkpoint, {1} in this run)",
513 nb_checkpoint_replication,nb_replication);
515 return has_different_sub_domain;
524 Int32 mesh_rank =
mesh->meshPartInfo().partRank();
527 const ItemGroup& all_items = family->allItems();
534 family->notifyItemsOwnerChanged();
544 ISubDomain* sd1 = m_sub_domain;
545 IApplication* app = sd1->application();
546 IParallelMng* pm = sd1->parallelMng();
548 Int32 my_rank = pm->commRank();
549 Int32 nb_rank = pm->commSize();
550 if (nb_rank>nb_old_rank)
551 ARCANE_THROW(NotImplementedException,
"Increasing number of sub-domains (old={0} new={1})",
552 nb_old_rank,nb_rank);
553 UniqueArray<Int32> old_ranks_to_new_ranks(nb_old_rank);
554 UniqueArray<Int32> ranks_to_read;
555 for(
Integer i=0; i<nb_old_rank; ++i ){
556 Int32 new_rank = i % nb_rank;
557 old_ranks_to_new_ranks[i] = new_rank;
558 if (new_rank==my_rank)
559 ranks_to_read.add(i);
561 info() <<
"OLD_RANKS_TO_NEW_RANKS=" << old_ranks_to_new_ranks;
562 info() <<
"RANKS_TO_READ=" << ranks_to_read;
563 info() <<
"Apply Changing nb sub domain my_rank=" << my_rank;
564 String service_name = ci.serviceName();
567 IParallelMng* pm2 = pm->sequentialParallelMng();
568 UniqueArray<ISubDomain*> sd_to_merge_list2;
569 UniqueArray<Byte> case_bytes;
570 sd1->fillCaseBytes(case_bytes);
572 String message_passing_service =
"SequentialParallelMngContainerFactory";
573 ServiceBuilder<IParallelMngContainerFactory> sf(app);
574 auto pbf = sf.createReference(message_passing_service,
SB_AllowNull);
576 ARCANE_FATAL(
"Can not find service '{0}' implementing IParallelMngContainerFactory",message_passing_service);
577 Ref<IParallelMngContainer> parallel_builder(pbf->_createParallelMngBuilder(1,pm2->communicator()));
579 for(
Int32 i : ranks_to_read ){
580 info() <<
"Reading Part sub_domain index=" << i;
581 info() <<
"Using the checkpoint/restart service"
582 <<
" <" << service_name <<
"> (implement ICheckpointReader2)";
583 CheckpointInfo checkpoint_info2(ci);
584 checkpoint_info2.setSubDomainRank(i);
585 CheckpointReadInfo cri(checkpoint_info2);
586 cri.setReader(reader);
587 cri.setParallelMng(pm2);
588 bool is_first = (i==my_rank);
589 ISubDomain* sd2 =
nullptr;
594 String file_suffix = String::format(
"s_{0}_{1}",my_rank,i);
595 ITraceMng* tm = app->createAndInitializeTraceMng(sd1->traceMng(),file_suffix);
596 Ref<IParallelMng> sub_pm = parallel_builder->_createParallelMng(0,tm);
597 SubDomainBuildInfo sdbi(sub_pm,i);
598 sdbi.setCaseFileName(sd1->caseFullFileName());
599 sdbi.setCaseBytes(case_bytes);
607 sd2 = arcaneCreateSubDomain(sd1->session(),sdbi);
609 sd2->readCaseMeshes();
611 sd_to_merge_list2.add(sd2);
612 sd2->setIsContinue();
613 sd2->allocateMeshes();
615 sd2->variableMng()->readCheckpoint(cri);
616 sd2->checkpointMng()->readObservable()->notifyAllObservers();
625 VariableCollection vars = sd2->variableMng()->variables();
626 for( VariableCollection::Enumerator ivar(vars); ++ivar; ){
627 IVariable* var = *ivar;
633 if (var->itemFamilyName().null())
636 info() <<
"LIST_VAR name=" << var->fullName();
639 UniqueArray<IMesh*> meshes_to_merge;
640 for( ISubDomain* sd_to_merge : sd_to_merge_list2 ){
641 meshes_to_merge.add(sd_to_merge->defaultMesh());
646 _changeItemsOwner(sd1->defaultMesh(),old_ranks_to_new_ranks);
647 for( IMesh* mesh : meshes_to_merge )
648 _changeItemsOwner(mesh,old_ranks_to_new_ranks);
651 IMesh* mesh = sd1->defaultMesh();
656 MeshPartInfo p(makeMeshPartInfoFromParallelMng(mesh->parallelMng()));
657 mesh->toPrimaryMesh()->setMeshPartInfo(p);
#define ARCANE_THROW(exception_class,...)
Macro pour envoyer une exception avec formattage.
#define ARCANE_FATAL(...)
Macro envoyant une exception FatalErrorException.
Integer size() const
Nombre d'éléments du vecteur.
const T * unguardedBasePointer() const
Informations sur une protection.
Gestionnaire des protections.
IObservable * m_write_observable
Observable en écriture.
void readDefaultCheckpoint() override
Lit une protection par défaut.
IObservable * readObservable() override
Observable en lecture.
void writeCheckpoint(ICheckpointWriter *writer) override
Écrit une protection par défaut avec l'écrivain writer.
void _writeCheckpointInfoFile(ICheckpointWriter *checkpoint_writer, ByteArray &infos)
CheckpointInfo readCheckpointInfo(Span< const Byte > infos, const String &buf_name) override
Lit les informations d'une protection.
IObservable * writeObservable() override
Observable en écriture.
void writeDefaultCheckpoint(ICheckpointWriter *writer) override
Écrit une protection avec l'écrivain writer.
bool _checkChangingNbSubDomain(const CheckpointInfo &ci)
Regarde si le nombre de sous-domaines a changé entre la protection et l'allocation actuelle.
void readCheckpoint() override
Lit une protection.
CheckpointInfo readDefaultCheckpointInfo() override
Lit les informations de protection par défaut.
IObservable * m_read_observable
Observable en lecture.
Informations de relecture d'une protection.
constexpr Integer size() const noexcept
Nombre d'éléments du tableau.
Classe gérant un répertoire.
virtual String file(const String &file_name) const
Retourne le chemin complet du fichier file_name dans le répertoire.
Interface de l'application.
virtual ITraceMng * traceMng() const =0
Gestionnaire de traces.
virtual IRessourceMng * ressourceMng() const =0
Gestionnaire de ressources.
Interface du gestionnaire des informations des protections.
Interface du service de lecture d'une protection/reprise (V2)
Interface du service de lecture d'une protection/reprise.
Interface du service d'écriture d'une protection/reprise.
virtual ConstArrayView< Real > checkpointTimes() const =0
Temps des protections.
virtual String readerServiceName() const =0
Nom du service du lecteur associé à cet écrivain.
virtual String readerMetaData() const =0
Méta données pour le lecteur associé à cet écrivain.
virtual String baseDirectoryName() const =0
Nom du répertoire de base de la protection.
Interface du gestionnaire des entrées sorties.
virtual bool collectiveRead(const String &filename, ByteArray &bytes)=0
Lecture collective d'un fichier.
Interface d'une famille d'entités.
virtual void mergeMeshes(ConstArrayView< IMesh * > meshes)=0
Fusionne les maillages de meshes avec le maillage actuel.
virtual IMeshModifier * modifier()=0
Interface de modification associée.
Exception lorsqu'une erreur d'entrée/sortie est détectée.
Interface d'un observable.
virtual void notifyAllObservers()=0
Notifie tous les observateurs.
Interface du gestionnaire de parallélisme pour un sous-domaine.
virtual Int32 commRank() const =0
Rang de cette instance dans le communicateur.
virtual IParallelReplication * replication() const =0
Informations sur la réplication.
virtual Int32 commSize() const =0
Nombre d'instance dans le communicateur.
virtual ARCANE_DEPRECATED Integer nbSubDomain() const final
Nombre total de sous-domaines.
Informations sur la réplication des sous-domaines en parallèle.
virtual Int32 replicationRank() const =0
Rang dans la réplication (de 0 à nbReplication()-1)
virtual Int32 nbReplication() const =0
Nombre de réplication.
Interface d'un gestionnaire de ressource.
virtual IXmlDocumentHolder * createXmlDocument()=0
Créé un noeud document XML. Crée et retourne un document XML utilisant une implémentation par défaut....
Interface du gestionnaire d'un sous-domaine.
virtual IApplication * application()=0
Application.
virtual IParallelMng * parallelMng()=0
Retourne le gestionnaire de parallélisme.
virtual IVariableMng * variableMng()=0
Retourne le gestionnaire de variables.
Interface du gestionnaire de traces.
virtual void readCheckpoint(ICheckpointReader *reader)=0
Relit toutes les variables d'une protection.
@ PNoDump
Indique que la variable ne doit pas être sauvegardée.
static IXmlDocumentHolder * loadFromBuffer(Span< const Byte > buffer, const String &name, ITraceMng *tm)
Charge un document XML.
Groupe d'entités de maillage.
Classe de base d'un élément de maillage.
impl::MutableItemBase mutableItemBase() const
Partie interne modifiable de l'entité.
Int32 owner() const
Numéro du sous-domaine propriétaire de l'entité
Informations un maillage partitionné.
void setOwner(Integer suid, Int32 current_sub_domain)
Positionne le numéro du sous-domaine propriétaire de l'entité.
Exception lorsqu'une erreur fatale 'parallèle' est générée.
Référence à une instance.
Encapsulation d'un pointeur qui se détruit automatiquement.
Classe utilitaire pour instantier un service d'une interface donnée.
Vue d'un tableau d'éléments de type T.
Chaîne de caractères unicode.
bool null() const
Retourne true si la chaîne est nulle.
const char * localstr() const
Retourne la conversion de l'instance dans l'encodage UTF-8.
TraceAccessor(ITraceMng *m)
Construit un accesseur via le gestionnaire de trace m.
TraceMessage info() const
Flot pour un message d'information.
XmlNode attr(const String &name, bool throw_exception=false) const
Retourne l'attribut de nom name.
XmlNode documentElement() const
Retourne le noeud élément du document.
String attrValue(const String &name, bool throw_exception=false) const
Valeur de l'attribut name.
XmlNode child(const String &name) const
Noeud fils de celui-ci de nom name.
void clear()
Supprime tous les noeuds fils.
bool null() const
Vrai si le noeud est nul.
Integer valueAsInteger(bool throw_exception=false) const
Valeur du noeud convertie en entier.
void setAttrValue(const String &name, const String &value)
Positionne l'attribut name à la valeur value.
@ SB_AllowNull
Autorise l'absence du service.
Int32 Integer
Type représentant un entier.
Array< Byte > ByteArray
Tableau dynamique à une dimension de caractères.
ConstArrayView< Int32 > Int32ConstArrayView
Equivalent C d'un tableau à une dimension d'entiers 32 bits.
UniqueArray< Byte > ByteUniqueArray
Tableau dynamique à une dimension de caractères.
double Real
Type représentant un réel.
ConstArrayView< Byte > ByteConstArrayView
Equivalent C d'un tableau à une dimension de caractères.
std::int32_t Int32
Type entier signé sur 32 bits.
ConstArrayView< Real > RealConstArrayView
Equivalent C d'un tableau à une dimension de réels.