df/d7b/GenericReducer_8h_source.html

// -*- tab-width: 2; indent-tabs-mode: nil; coding: utf-8-with-signature -*-

//-----------------------------------------------------------------------------

// Copyright 2000-2024 CEA (www.cea.fr) IFPEN (www.ifpenergiesnouvelles.com)

// See the top-level COPYRIGHT file for details.

// SPDX-License-Identifier: Apache-2.0

//-----------------------------------------------------------------------------

/*---------------------------------------------------------------------------*/

/* GenericReducer.h                                            (C) 2000-2024 */

/*                                                                           */

/* Gestion des réductions pour les accélérateurs.                            */

/*---------------------------------------------------------------------------*/

#ifndef ARCANE_ACCELERATOR_GENERICREDUCER_H

#define ARCANE_ACCELERATOR_GENERICREDUCER_H

/*---------------------------------------------------------------------------*/

/*---------------------------------------------------------------------------*/


#include "arcane/utils/NumArray.h"

#include "arcane/utils/FatalErrorException.h"


#include "arcane/accelerator/core/RunQueue.h"

#include "arcane/accelerator/Reduce.h"


/*---------------------------------------------------------------------------*/

/*---------------------------------------------------------------------------*/


namespace Arcane::Accelerator::impl

{

template <typename DataType>

class GenericReducerIf;


/*---------------------------------------------------------------------------*/

/*---------------------------------------------------------------------------*/

// Classe pour déterminer l'instance de 'Reducer2' à utiliser en fonction de l'opérateur.

// A spécialiser.

template <typename DataType, typename Operator>

class ReduceOperatorToReducerTypeTraits;


template <typename DataType>


class ReduceOperatorToReducerTypeTraits<DataType, MaxOperator<DataType>>

{

 public:


  using ReducerType = ReducerMax2<DataType>;

};


template <typename DataType>


class ReduceOperatorToReducerTypeTraits<DataType, MinOperator<DataType>>

{

 public:


  using ReducerType = ReducerMin2<DataType>;

};


template <typename DataType>


class ReduceOperatorToReducerTypeTraits<DataType, SumOperator<DataType>>

{

 public:


  using ReducerType = ReducerSum2<DataType>;

};


/*---------------------------------------------------------------------------*/

/*---------------------------------------------------------------------------*/

template <typename DataType>


class GenericReducerBase

{

  friend class GenericReducerIf<DataType>;


 public:


  GenericReducerBase(const RunQueue& queue)

  : m_queue(queue)

  {}


 protected:


  DataType _reducedValue() const

  {

    m_queue.barrier();

    return m_host_reduce_storage[0];

  }


  void _allocate()

  {

    eMemoryRessource r = eMemoryRessource::HostPinned;

    if (m_host_reduce_storage.memoryRessource() != r)

      m_host_reduce_storage = NumArray<DataType, MDDim1>(r);

    m_host_reduce_storage.resize(1);

  }


 protected:


  RunQueue m_queue;

  GenericDeviceStorage m_algo_storage;

  DeviceStorage<DataType> m_device_reduce_storage;

  NumArray<DataType, MDDim1> m_host_reduce_storage;

};


/*---------------------------------------------------------------------------*/

/*---------------------------------------------------------------------------*/

template <typename DataType>


class GenericReducerIf

{

  // TODO: Faire le malloc sur le device associé à la queue.

  //       et aussi regarder si on peut utiliser mallocAsync().


 public:


  template <typename InputIterator, typename ReduceOperator>

  void apply(GenericReducerBase<DataType>& s, Int32 nb_item, const DataType& init_value,

             InputIterator input_iter, ReduceOperator reduce_op, const TraceInfo& trace_info)

  {

    RunQueue& queue = s.m_queue;

    RunCommand command = makeCommand(queue);

    command << trace_info;

    impl::RunCommandLaunchInfo launch_info(command, nb_item);

    launch_info.beginExecute();

    eExecutionPolicy exec_policy = queue.executionPolicy();

    switch (exec_policy) {

#if defined(ARCANE_COMPILING_CUDA)

    case eExecutionPolicy::CUDA: {

      size_t temp_storage_size = 0;

      cudaStream_t stream = impl::CudaUtils::toNativeStream(queue);

      DataType* reduced_value_ptr = nullptr;

      // Premier appel pour connaitre la taille pour l'allocation

      ARCANE_CHECK_CUDA(::cub::DeviceReduce::Reduce(nullptr, temp_storage_size, input_iter, reduced_value_ptr,

                                                    nb_item, reduce_op, init_value, stream));


      s.m_algo_storage.allocate(temp_storage_size);

      reduced_value_ptr = s.m_device_reduce_storage.allocate();

      ARCANE_CHECK_CUDA(::cub::DeviceReduce::Reduce(s.m_algo_storage.address(), temp_storage_size,

                                                    input_iter, reduced_value_ptr, nb_item,

                                                    reduce_op, init_value, stream));

      s.m_device_reduce_storage.copyToAsync(s.m_host_reduce_storage, queue);

    } break;

#endif

#if defined(ARCANE_COMPILING_HIP)

    case eExecutionPolicy::HIP: {

      size_t temp_storage_size = 0;

      hipStream_t stream = impl::HipUtils::toNativeStream(queue);

      DataType* reduced_value_ptr = nullptr;

      // Premier appel pour connaitre la taille pour l'allocation

      ARCANE_CHECK_HIP(rocprim::reduce(nullptr, temp_storage_size, input_iter, reduced_value_ptr, init_value,

                                       nb_item, reduce_op, stream));


      s.m_algo_storage.allocate(temp_storage_size);

      reduced_value_ptr = s.m_device_reduce_storage.allocate();


      ARCANE_CHECK_HIP(rocprim::reduce(s.m_algo_storage.address(), temp_storage_size, input_iter, reduced_value_ptr, init_value,

                                       nb_item, reduce_op, stream));

      s.m_device_reduce_storage.copyToAsync(s.m_host_reduce_storage, queue);

    } break;

#endif

#if defined(ARCANE_COMPILING_SYCL)

    case eExecutionPolicy::SYCL: {

      {

        RunCommand command2 = makeCommand(queue);

        using ReducerType = typename ReduceOperatorToReducerTypeTraits<DataType, ReduceOperator>::ReducerType;

        ReducerType reducer(command2);

        command2 << RUNCOMMAND_LOOP1(iter, nb_item, reducer)

        {

          auto [i] = iter();

          reducer.combine(input_iter[i]);

        };

        queue.barrier();

        s.m_host_reduce_storage[0] = reducer.reducedValue();

      }

    } break;

#endif

    case eExecutionPolicy::Thread:

      // Pas encore implémenté en multi-thread

      [[fallthrough]];

    case eExecutionPolicy::Sequential: {

      DataType reduced_value = init_value;

      for (Int32 i = 0; i < nb_item; ++i) {

        reduced_value = reduce_op(reduced_value, *input_iter);

        ++input_iter;

      }

      s.m_host_reduce_storage[0] = reduced_value;

    } break;

    default:

      ARCANE_FATAL(getBadPolicyMessage(exec_policy));

    }

    launch_info.endExecute();

  }

};


/*---------------------------------------------------------------------------*/

/*---------------------------------------------------------------------------*/


} // namespace Arcane::Accelerator::impl


/*---------------------------------------------------------------------------*/

/*---------------------------------------------------------------------------*/


namespace Arcane::Accelerator

{


/*---------------------------------------------------------------------------*/

/*---------------------------------------------------------------------------*/

template <typename DataType>


class GenericReducer

: private impl::GenericReducerBase<DataType>

{

 public:


  explicit GenericReducer(const RunQueue& queue)

  : impl::GenericReducerBase<DataType>(queue)

  {

    this->_allocate();

  }


 public:


  void applyMin(SmallSpan<const DataType> values, const TraceInfo& trace_info = TraceInfo())

  {

    _apply(values.size(), values.data(), impl::MinOperator<DataType>{}, trace_info);

  }


  void applyMax(SmallSpan<const DataType> values, const TraceInfo& trace_info = TraceInfo())

  {

    _apply(values.size(), values.data(), impl::MaxOperator<DataType>{}, trace_info);

  }


  void applySum(SmallSpan<const DataType> values, const TraceInfo& trace_info = TraceInfo())

  {

    _apply(values.size(), values.data(), impl::SumOperator<DataType>{}, trace_info);

  }


  template <typename SelectLambda>


  void applyMinWithIndex(Int32 nb_value, const SelectLambda& select_lambda, const TraceInfo& trace_info = TraceInfo())

  {

    _applyWithIndex(nb_value, select_lambda, impl::MinOperator<DataType>{}, trace_info);

  }


  template <typename SelectLambda>


  void applyMaxWithIndex(Int32 nb_value, const SelectLambda& select_lambda, const TraceInfo& trace_info = TraceInfo())

  {

    _applyWithIndex(nb_value, select_lambda, impl::MaxOperator<DataType>{}, trace_info);

  }


  template <typename SelectLambda>


  void applySumWithIndex(Int32 nb_value, const SelectLambda& select_lambda, const TraceInfo& trace_info = TraceInfo())

  {

    _applyWithIndex(nb_value, select_lambda, impl::SumOperator<DataType>{}, trace_info);

  }


  DataType reducedValue()

  {

    m_is_already_called = false;

    return this->_reducedValue();

  }


 private:


  bool m_is_already_called = false;


 private:


  template <typename InputIterator, typename ReduceOperator>

  void _apply(Int32 nb_value, InputIterator input_iter, ReduceOperator reduce_op, const TraceInfo& trace_info)

  {

    _setCalled();

    impl::GenericReducerBase<DataType>* base_ptr = this;

    impl::GenericReducerIf<DataType> gf;

    DataType init_value = reduce_op.defaultValue();

    gf.apply(*base_ptr, nb_value, init_value, input_iter, reduce_op, trace_info);

  }


  template <typename GetterLambda, typename ReduceOperator>

  void _applyWithIndex(Int32 nb_value, const GetterLambda& getter_lambda,

                       ReduceOperator reduce_op, const TraceInfo& trace_info)

  {

    _setCalled();

    impl::GenericReducerBase<DataType>* base_ptr = this;

    impl::GenericReducerIf<DataType> gf;

    impl::GetterLambdaIterator<DataType, GetterLambda> input_iter(getter_lambda);

    DataType init_value = reduce_op.defaultValue();

    gf.apply(*base_ptr, nb_value, init_value, input_iter, reduce_op, trace_info);

  }


  void _setCalled()

  {

    if (m_is_already_called)

      ARCANE_FATAL("apply() has already been called for this instance");

    m_is_already_called = true;

  }

};


/*---------------------------------------------------------------------------*/

/*---------------------------------------------------------------------------*/


} // namespace Arcane::Accelerator


/*---------------------------------------------------------------------------*/

/*---------------------------------------------------------------------------*/


#endif


/*---------------------------------------------------------------------------*/

/*---------------------------------------------------------------------------*/

ARCANE_FATAL
#define ARCANE_FATAL(...)
Macro envoyant une exception FatalErrorException.
Definition ArcaneGlobal.h:768

Reduce.h
Types et fonctions pour gérer les synchronisations sur les accélérateurs.

RUNCOMMAND_LOOP1
#define RUNCOMMAND_LOOP1(iter_name, x1,...)
Boucle sur accélérateur avec arguments supplémentaires pour les réductions.
Definition RunCommandLoop.h:235

Arcane::Accelerator::GenericReducer::reducedValue
DataType reducedValue()
Valeur de la réduction.
Definition GenericReducer.h:301

Arcane::Accelerator::GenericReducer::applyMinWithIndex
void applyMinWithIndex(Int32 nb_value, const SelectLambda &select_lambda, const TraceInfo &trace_info=TraceInfo())
Applique une réduction 'Min' sur les valeurs sélectionnées par select_lambda.
Definition GenericReducer.h:281

Arcane::Accelerator::GenericReducer::applyMaxWithIndex
void applyMaxWithIndex(Int32 nb_value, const SelectLambda &select_lambda, const TraceInfo &trace_info=TraceInfo())
Applique une réduction 'Max' sur les valeurs sélectionnées par select_lambda.
Definition GenericReducer.h:288

Arcane::Accelerator::GenericReducer::applyMax
void applyMax(SmallSpan< const DataType > values, const TraceInfo &trace_info=TraceInfo())
Applique une réduction 'Max' sur les valeurs values.
Definition GenericReducer.h:268

Arcane::Accelerator::GenericReducer::applyMin
void applyMin(SmallSpan< const DataType > values, const TraceInfo &trace_info=TraceInfo())
Applique une réduction 'Min' sur les valeurs values.
Definition GenericReducer.h:262

Arcane::Accelerator::GenericReducer::applySum
void applySum(SmallSpan< const DataType > values, const TraceInfo &trace_info=TraceInfo())
Applique une réduction 'Somme' sur les valeurs values.
Definition GenericReducer.h:274

Arcane::Accelerator::GenericReducer::applySumWithIndex
void applySumWithIndex(Int32 nb_value, const SelectLambda &select_lambda, const TraceInfo &trace_info=TraceInfo())
Applique une réduction 'Somme' sur les valeurs sélectionnées par select_lambda.
Definition GenericReducer.h:295

Arcane::Accelerator::ReducerMax2
Classe pour effectuer une réduction 'max'.
Definition Reduce.h:775

Arcane::Accelerator::ReducerMin2
Classe pour effectuer une réduction 'min'.
Definition Reduce.h:801

Arcane::Accelerator::ReducerSum2
Classe pour effectuer une réduction 'somme'.
Definition Reduce.h:750

Arcane::Accelerator::RunCommand
Gestion d'une commande sur accélérateur.
Definition core/RunCommand.h:46

Arcane::Accelerator::RunQueue
File d'exécution pour un accélérateur.
Definition core/RunQueue.h:52

Arcane::Accelerator::RunQueue::barrier
void barrier() const
Bloque tant que toutes les commandes associées à la file ne sont pas terminées.
Definition RunQueue.cc:159

Arcane::Accelerator::RunQueue::executionPolicy
eExecutionPolicy executionPolicy() const
Politique d'exécution de la file.
Definition RunQueue.cc:169

Arcane::Accelerator::impl::DeviceStorage
Gère l'allocation interne sur le device pour un type donné.
Definition CommonUtils.h:156

Arcane::Accelerator::impl::GenericDeviceStorage
Gère l'allocation interne sur le device.
Definition CommonUtils.h:95

Arcane::Accelerator::impl::GenericReducerBase
Classe de base pour effectuer une réduction.
Definition GenericReducer.h:70

Arcane::Accelerator::impl::GenericReducerIf
Classe pour effectuer un partitionnement d'une liste.
Definition GenericReducer.h:115

Arcane::Accelerator::impl::MaxOperator
Opérateur de Scan/Reduce pour le maximum.
Definition CommonUtils.h:284

Arcane::Accelerator::impl::MinOperator
Opérateur de Scan/Reduce pour le minimum.
Definition CommonUtils.h:265

Arcane::Accelerator::impl::ReduceOperatorToReducerTypeTraits
Definition GenericReducer.h:36

Arcane::Accelerator::impl::RunCommandLaunchInfo
Object temporaire pour conserver les informations d'exécution d'une commande et regrouper les tests.
Definition core/RunCommandLaunchInfo.h:36

Arcane::Accelerator::impl::RunCommandLaunchInfo::beginExecute
void beginExecute()
Indique qu'on commence l'exécution de la commande.
Definition RunCommandLaunchInfo.cc:63

Arcane::Accelerator::impl::RunCommandLaunchInfo::endExecute
void endExecute()
Signale la fin de l'exécution.
Definition RunCommandLaunchInfo.cc:82

Arcane::Accelerator::impl::SumOperator
Opérateur de Scan/Reduce pour les sommes.
Definition CommonUtils.h:246

Arcane::NumArray
Tableaux multi-dimensionnels pour les types numériques accessibles sur accélérateurs.
Definition utils/NumArray.h:58

Arcane::SmallSpan
Vue d'un tableau d'éléments de type T.
Definition Span.h:673

Arcane::SpanImpl::size
constexpr __host__ __device__ SizeType size() const noexcept
Retourne la taille du tableau.
Definition Span.h:212

Arcane::SpanImpl::data
constexpr __host__ __device__ pointer data() const noexcept
Pointeur sur le début de la vue.
Definition Span.h:422

Arcane::TraceInfo
Informations de trace.
Definition arccore/src/base/arccore/base/TraceInfo.h:33

Arcane::Accelerator
Espace de nom pour l'utilisation des accélérateurs.
Definition AcceleratorGlobal.h:36

Arcane::Accelerator::makeCommand
RunCommand makeCommand(const RunQueue &run_queue)
Créé une commande associée à la file run_queue.
Definition core/RunQueue.h:283

Arcane::Accelerator::eExecutionPolicy
eExecutionPolicy
Politique d'exécution pour un Runner.
Definition AcceleratorCoreGlobal.h:93

Arcane::Accelerator::eExecutionPolicy::SYCL
@ SYCL
Politique d'exécution utilisant l'environnement SYCL.
Definition AcceleratorCoreGlobal.h:105

Arcane::Accelerator::eExecutionPolicy::HIP
@ HIP
Politique d'exécution utilisant l'environnement HIP.
Definition AcceleratorCoreGlobal.h:103

Arcane::Accelerator::eExecutionPolicy::CUDA
@ CUDA
Politique d'exécution utilisant l'environnement CUDA.
Definition AcceleratorCoreGlobal.h:101

Arcane::Accelerator::eExecutionPolicy::Sequential
@ Sequential
Politique d'exécution séquentielle.
Definition AcceleratorCoreGlobal.h:97

Arcane::Accelerator::eExecutionPolicy::Thread
@ Thread
Politique d'exécution multi-thread.
Definition AcceleratorCoreGlobal.h:99

Arcane::eMemoryRessource
Arcane::eMemoryResource eMemoryRessource
Typedef pour la version Arcane historique (avec 2's')
Definition CollectionsGlobal.h:151

Arcane::Int32
std::int32_t Int32
Type entier signé sur 32 bits.
Definition ArccoreGlobal.h:184