da/dca/CudaAcceleratorRuntime_8cc_source.html

// -*- tab-width: 2; indent-tabs-mode: nil; coding: utf-8-with-signature -*-

//-----------------------------------------------------------------------------

// Copyright 2000-2025 CEA (www.cea.fr) IFPEN (www.ifpenergiesnouvelles.com)

// See the top-level COPYRIGHT file for details.

// SPDX-License-Identifier: Apache-2.0

//-----------------------------------------------------------------------------

/*---------------------------------------------------------------------------*/

/* CudaAcceleratorRuntime.cc                                   (C) 2000-2025 */

/*                                                                           */

/* Runtime pour 'Cuda'.                                                      */

/*---------------------------------------------------------------------------*/

/*---------------------------------------------------------------------------*/


#include "arcane/accelerator/cuda/CudaAccelerator.h"


#include "arccore/base/MemoryView.h"

#include "arccore/base/PlatformUtils.h"

#include "arccore/base/TraceInfo.h"

#include "arccore/base/NotSupportedException.h"

#include "arccore/base/FatalErrorException.h"

#include "arccore/base/NotImplementedException.h"


#include "arccore/common/IMemoryResourceMng.h"

#include "arccore/common/internal/IMemoryResourceMngInternal.h"


#include "arcane/utils/Array.h"

#include "arcane/utils/OStringStream.h"

#include "arcane/utils/ValueConvert.h"

#include "arcane/utils/CheckedConvert.h"

#include "arcane/utils/internal/MemoryUtilsInternal.h"


#include "arcane/accelerator/core/RunQueueBuildInfo.h"

#include "arcane/accelerator/core/Memory.h"

#include "arcane/accelerator/core/DeviceInfoList.h"

#include "arcane/accelerator/core/KernelLaunchArgs.h"


#include "arcane/accelerator/core/internal/IRunnerRuntime.h"

#include "arcane/accelerator/core/internal/RegisterRuntimeInfo.h"

#include "arcane/accelerator/core/internal/RunCommandImpl.h"

#include "arcane/accelerator/core/internal/IRunQueueStream.h"

#include "arcane/accelerator/core/internal/IRunQueueEventImpl.h"

#include "arcane/accelerator/core/PointerAttribute.h"

#include "arcane/accelerator/core/RunQueue.h"

#include "arcane/accelerator/core/DeviceMemoryInfo.h"

#include "arcane/accelerator/core/NativeStream.h"


#include "arcane/accelerator/cuda/runtime/internal/Cupti.h"


#include <iostream>

#include <unordered_map>

#include <mutex>


#include <cuda.h>


#ifdef ARCANE_HAS_CUDA_NVTOOLSEXT

#include <nvtx3/nvToolsExt.h>

#endif


using namespace Arccore;


namespace Arcane::Accelerator::Cuda

{

using Impl::KernelLaunchArgs;


namespace

{

  Int32 global_cupti_flush = 0;

  CuptiInfo global_cupti_info;

} // namespace


/*---------------------------------------------------------------------------*/

/*---------------------------------------------------------------------------*/


void arcaneCheckCudaErrors(const TraceInfo& ti, CUresult e)

{

  if (e == CUDA_SUCCESS)

    return;

  const char* error_name = nullptr;

  CUresult e2 = cuGetErrorName(e, &error_name);

  if (e2 != CUDA_SUCCESS)

    error_name = "Unknown";


  const char* error_message = nullptr;

  CUresult e3 = cuGetErrorString(e, &error_message);

  if (e3 != CUDA_SUCCESS)

    error_message = "Unknown";


  ARCANE_FATAL("CUDA Error trace={0} e={1} name={2} message={3}",

               ti, e, error_name, error_message);

}


/*---------------------------------------------------------------------------*/

/*---------------------------------------------------------------------------*/


class OccupancyMap

{

 public:


  Int32 getNbThreadPerBlock(const void* kernel_ptr)

  {

    std::scoped_lock lock(m_mutex);

    auto x = m_nb_thread_per_block_map.find(kernel_ptr);

    if (x != m_nb_thread_per_block_map.end())

      return x->second;

    int min_grid_size = 0;

    int computed_block_size = 0;

    int wanted_shared_memory = 0;

    cudaError_t r = cudaOccupancyMaxPotentialBlockSize(&min_grid_size, &computed_block_size, kernel_ptr, wanted_shared_memory);

    if (r != cudaSuccess)

      computed_block_size = 0;

    int num_block_0 = 0;

    cudaOccupancyMaxActiveBlocksPerMultiprocessor(&num_block_0, kernel_ptr, 256, wanted_shared_memory);

    int num_block_1 = 0;

    cudaOccupancyMaxActiveBlocksPerMultiprocessor(&num_block_1, kernel_ptr, 1024, wanted_shared_memory);


    cudaFuncAttributes func_attr;

    cudaFuncGetAttributes(&func_attr, kernel_ptr);

    const char* func_name = nullptr;

    cudaFuncGetName(&func_name, kernel_ptr);

    m_nb_thread_per_block_map[kernel_ptr] = computed_block_size;

    std::cout << "ComputedBlockSize=" << computed_block_size << " n0=" << num_block_0 << " n1=" << num_block_1

              << " min_grid_size=" << min_grid_size << " nb_reg=" << func_attr.numRegs

              << " name=" << func_name << "\n";

    return computed_block_size;

  }


 private:


  std::unordered_map<const void*, Int32> m_nb_thread_per_block_map;

  std::mutex m_mutex;

};


/*---------------------------------------------------------------------------*/

/*---------------------------------------------------------------------------*/


class CudaRunQueueStream

: public impl::IRunQueueStream

{

 public:


  CudaRunQueueStream(impl::IRunnerRuntime* runtime, const RunQueueBuildInfo& bi)

  : m_runtime(runtime)

  {

    if (bi.isDefault())

      ARCANE_CHECK_CUDA(cudaStreamCreate(&m_cuda_stream));

    else {

      int priority = bi.priority();

      ARCANE_CHECK_CUDA(cudaStreamCreateWithPriority(&m_cuda_stream, cudaStreamDefault, priority));

    }

  }

  ~CudaRunQueueStream() override

  {

    ARCANE_CHECK_CUDA_NOTHROW(cudaStreamDestroy(m_cuda_stream));

  }


 public:


  void notifyBeginLaunchKernel([[maybe_unused]] impl::RunCommandImpl& c) override

  {

#ifdef ARCANE_HAS_CUDA_NVTOOLSEXT

    auto kname = c.kernelName();

    if (kname.empty())

      nvtxRangePush(c.traceInfo().name());

    else

      nvtxRangePush(kname.localstr());

#endif

    return m_runtime->notifyBeginLaunchKernel();

  }


  void notifyEndLaunchKernel(impl::RunCommandImpl&) override

  {

#ifdef ARCANE_HAS_CUDA_NVTOOLSEXT

    nvtxRangePop();

#endif

    return m_runtime->notifyEndLaunchKernel();

  }


  void barrier() override

  {

    ARCANE_CHECK_CUDA(cudaStreamSynchronize(m_cuda_stream));

    if (global_cupti_flush > 0)

      global_cupti_info.flush();

  }


  bool _barrierNoException() override

  {

    return (cudaStreamSynchronize(m_cuda_stream) != cudaSuccess);

  }


  void copyMemory(const MemoryCopyArgs& args) override

  {

    auto source_bytes = args.source().bytes();

    auto r = cudaMemcpyAsync(args.destination().data(), source_bytes.data(),

                             source_bytes.size(), cudaMemcpyDefault, m_cuda_stream);

    ARCANE_CHECK_CUDA(r);

    if (!args.isAsync())

      barrier();

  }


  void prefetchMemory(const MemoryPrefetchArgs& args) override

  {

    auto src = args.source().bytes();

    if (src.size() == 0)

      return;

    DeviceId d = args.deviceId();

    int device = cudaCpuDeviceId;

    if (!d.isHost())

      device = d.asInt32();

    //std::cout << "PREFETCH device=" << device << " host(id)=" << cudaCpuDeviceId

    //          << " size=" << args.source().size() << " data=" << src.data() << "\n";

    auto mem_location = _getMemoryLocation(device);

#if defined(ARCANE_USING_CUDA13_OR_GREATER)

    auto r = cudaMemPrefetchAsync(src.data(), src.size(), mem_location, 0, m_cuda_stream);

#else

    auto r = cudaMemPrefetchAsync(src.data(), src.size(), mem_location, m_cuda_stream);

#endif

    ARCANE_CHECK_CUDA(r);

    if (!args.isAsync())

      barrier();

  }


  Impl::NativeStream nativeStream() override

  {

    return Impl::NativeStream(&m_cuda_stream);

  }


 public:


  cudaStream_t trueStream() const

  {

    return m_cuda_stream;

  }


 private:


  impl::IRunnerRuntime* m_runtime = nullptr;

  cudaStream_t m_cuda_stream = nullptr;

};


/*---------------------------------------------------------------------------*/

/*---------------------------------------------------------------------------*/


class CudaRunQueueEvent

: public impl::IRunQueueEventImpl

{

 public:


  explicit CudaRunQueueEvent(bool has_timer)

  {

    if (has_timer)

      ARCANE_CHECK_CUDA(cudaEventCreate(&m_cuda_event));

    else

      ARCANE_CHECK_CUDA(cudaEventCreateWithFlags(&m_cuda_event, cudaEventDisableTiming));

  }

  ~CudaRunQueueEvent() override

  {

    ARCANE_CHECK_CUDA_NOTHROW(cudaEventDestroy(m_cuda_event));

  }


 public:


  // Enregistre l'événement au sein d'une RunQueue

  void recordQueue(impl::IRunQueueStream* stream) final

  {

    auto* rq = static_cast<CudaRunQueueStream*>(stream);

    ARCANE_CHECK_CUDA(cudaEventRecord(m_cuda_event, rq->trueStream()));

  }


  void wait() final

  {

    ARCANE_CHECK_CUDA(cudaEventSynchronize(m_cuda_event));

  }


  void waitForEvent(impl::IRunQueueStream* stream) final

  {

    auto* rq = static_cast<CudaRunQueueStream*>(stream);

    ARCANE_CHECK_CUDA(cudaStreamWaitEvent(rq->trueStream(), m_cuda_event, cudaEventWaitDefault));

  }


  Int64 elapsedTime(IRunQueueEventImpl* start_event) final

  {

    // NOTE: Les évènements doivent avoir été créé avec le timer actif

    ARCANE_CHECK_POINTER(start_event);

    auto* true_start_event = static_cast<CudaRunQueueEvent*>(start_event);

    float time_in_ms = 0.0;


    // TODO: regarder si nécessaire

    // ARCANE_CHECK_CUDA(cudaEventSynchronize(m_cuda_event));


    ARCANE_CHECK_CUDA(cudaEventElapsedTime(&time_in_ms, true_start_event->m_cuda_event, m_cuda_event));

    double x = time_in_ms * 1.0e6;

    Int64 nano_time = static_cast<Int64>(x);

    return nano_time;

  }


  bool hasPendingWork() final

  {

    cudaError_t v = cudaEventQuery(m_cuda_event);

    if (v == cudaErrorNotReady)

      return true;

    ARCANE_CHECK_CUDA(v);

    return false;

  }


 private:


  cudaEvent_t m_cuda_event;

};


/*---------------------------------------------------------------------------*/

/*---------------------------------------------------------------------------*/


class CudaRunnerRuntime

: public impl::IRunnerRuntime

{

 public:


  ~CudaRunnerRuntime() override = default;


 public:


  void notifyBeginLaunchKernel() override

  {

    ++m_nb_kernel_launched;

    if (m_is_verbose)

      std::cout << "BEGIN CUDA KERNEL!\n";

  }

  void notifyEndLaunchKernel() override

  {

    ARCANE_CHECK_CUDA(cudaGetLastError());

    if (m_is_verbose)

      std::cout << "END CUDA KERNEL!\n";

  }

  void barrier() override

  {

    ARCANE_CHECK_CUDA(cudaDeviceSynchronize());

  }

  eExecutionPolicy executionPolicy() const override

  {

    return eExecutionPolicy::CUDA;

  }

  impl::IRunQueueStream* createStream(const RunQueueBuildInfo& bi) override

  {

    return new CudaRunQueueStream(this, bi);

  }

  impl::IRunQueueEventImpl* createEventImpl() override

  {

    return new CudaRunQueueEvent(false);

  }

  impl::IRunQueueEventImpl* createEventImplWithTimer() override

  {

    return new CudaRunQueueEvent(true);

  }

  void setMemoryAdvice(ConstMemoryView buffer, eMemoryAdvice advice, DeviceId device_id) override

  {

    auto v = buffer.bytes();

    const void* ptr = v.data();

    size_t count = v.size();

    int device = device_id.asInt32();

    cudaMemoryAdvise cuda_advise;


    if (advice == eMemoryAdvice::MostlyRead)

      cuda_advise = cudaMemAdviseSetReadMostly;

    else if (advice == eMemoryAdvice::PreferredLocationDevice)

      cuda_advise = cudaMemAdviseSetPreferredLocation;

    else if (advice == eMemoryAdvice::AccessedByDevice)

      cuda_advise = cudaMemAdviseSetAccessedBy;

    else if (advice == eMemoryAdvice::PreferredLocationHost) {

      cuda_advise = cudaMemAdviseSetPreferredLocation;

      device = cudaCpuDeviceId;

    }

    else if (advice == eMemoryAdvice::AccessedByHost) {

      cuda_advise = cudaMemAdviseSetAccessedBy;

      device = cudaCpuDeviceId;

    }

    else

      return;

    //std::cout << "MEMADVISE p=" << ptr << " size=" << count << " advise = " << cuda_advise << " id = " << device << "\n";

    ARCANE_CHECK_CUDA(cudaMemAdvise(ptr, count, cuda_advise, _getMemoryLocation(device)));

  }

  void unsetMemoryAdvice(ConstMemoryView buffer, eMemoryAdvice advice, DeviceId device_id) override

  {

    auto v = buffer.bytes();

    const void* ptr = v.data();

    size_t count = v.size();

    int device = device_id.asInt32();

    cudaMemoryAdvise cuda_advise;


    if (advice == eMemoryAdvice::MostlyRead)

      cuda_advise = cudaMemAdviseUnsetReadMostly;

    else if (advice == eMemoryAdvice::PreferredLocationDevice)

      cuda_advise = cudaMemAdviseUnsetPreferredLocation;

    else if (advice == eMemoryAdvice::AccessedByDevice)

      cuda_advise = cudaMemAdviseUnsetAccessedBy;

    else if (advice == eMemoryAdvice::PreferredLocationHost) {

      cuda_advise = cudaMemAdviseUnsetPreferredLocation;

      device = cudaCpuDeviceId;

    }

    else if (advice == eMemoryAdvice::AccessedByHost) {

      cuda_advise = cudaMemAdviseUnsetAccessedBy;

      device = cudaCpuDeviceId;

    }

    else

      return;

    ARCANE_CHECK_CUDA(cudaMemAdvise(ptr, count, cuda_advise, _getMemoryLocation(device)));

  }


  void setCurrentDevice(DeviceId device_id) final

  {

    Int32 id = device_id.asInt32();

    if (!device_id.isAccelerator())

      ARCANE_FATAL("Device {0} is not an accelerator device", id);

    ARCANE_CHECK_CUDA(cudaSetDevice(id));

  }


  const IDeviceInfoList* deviceInfoList() final { return &m_device_info_list; }


  void startProfiling() override

  {

    global_cupti_info.start();

  }


  void stopProfiling() override

  {

    global_cupti_info.stop();

  }


  bool isProfilingActive() override

  {

    return global_cupti_info.isActive();

  }


  void getPointerAttribute(PointerAttribute& attribute, const void* ptr) override

  {

    cudaPointerAttributes ca;

    ARCANE_CHECK_CUDA(cudaPointerGetAttributes(&ca, ptr));

    // NOTE: le type Arcane 'ePointerMemoryType' a normalememt les mêmes valeurs

    // que le type CUDA correspondant donc on peut faire un cast simple.

    auto mem_type = static_cast<ePointerMemoryType>(ca.type);

    _fillPointerAttribute(attribute, mem_type, ca.device,

                          ptr, ca.devicePointer, ca.hostPointer);

  }


  DeviceMemoryInfo getDeviceMemoryInfo(DeviceId device_id) override

  {

    int d = 0;

    int wanted_d = device_id.asInt32();

    ARCANE_CHECK_CUDA(cudaGetDevice(&d));

    if (d != wanted_d)

      ARCANE_CHECK_CUDA(cudaSetDevice(wanted_d));

    size_t free_mem = 0;

    size_t total_mem = 0;

    ARCANE_CHECK_CUDA(cudaMemGetInfo(&free_mem, &total_mem));

    if (d != wanted_d)

      ARCANE_CHECK_CUDA(cudaSetDevice(d));

    DeviceMemoryInfo dmi;

    dmi.setFreeMemory(free_mem);

    dmi.setTotalMemory(total_mem);

    return dmi;

  }


  void pushProfilerRange(const String& name, Int32 color_rgb) override

  {

#ifdef ARCANE_HAS_CUDA_NVTOOLSEXT

    if (color_rgb >= 0) {

      // NOTE: Il faudrait faire: nvtxEventAttributes_t eventAttrib = { 0 };

      // mais cela provoque pleins d'avertissement de type 'missing initializer for member'

      nvtxEventAttributes_t eventAttrib;

      std::memset(&eventAttrib, 0, sizeof(nvtxEventAttributes_t));

      eventAttrib.version = NVTX_VERSION;

      eventAttrib.size = NVTX_EVENT_ATTRIB_STRUCT_SIZE;

      eventAttrib.colorType = NVTX_COLOR_ARGB;

      eventAttrib.color = color_rgb;

      eventAttrib.messageType = NVTX_MESSAGE_TYPE_ASCII;

      eventAttrib.message.ascii = name.localstr();

      nvtxRangePushEx(&eventAttrib);

    }

    else

      nvtxRangePush(name.localstr());

#endif

  }

  void popProfilerRange() override

  {

#ifdef ARCANE_HAS_CUDA_NVTOOLSEXT

    nvtxRangePop();

#endif

  }


  void finalize(ITraceMng* tm) override

  {

    finalizeCudaMemoryAllocators(tm);

  }


  KernelLaunchArgs computeKernalLaunchArgs(const KernelLaunchArgs& orig_args,

                                           const void* kernel_ptr,

                                           Int64 total_loop_size,

                                           Int32 wanted_shared_memory) override

  {

    if (!m_use_computed_occupancy)

      return orig_args;

    if (wanted_shared_memory < 0)

      wanted_shared_memory = 0;

    // Pour l'instant, on ne fait pas de calcul si la mémoire partagée est non nulle.

    if (wanted_shared_memory != 0)

      return orig_args;

    Int32 computed_block_size = m_occupancy_map.getNbThreadPerBlock(kernel_ptr);

    if (computed_block_size == 0)

      return orig_args;

    Int64 big_b = (total_loop_size + computed_block_size - 1) / computed_block_size;

    int blocks_per_grid = CheckedConvert::toInt32(big_b);

    return { blocks_per_grid, computed_block_size };

  }


 public:


  void fillDevices(bool is_verbose);

  void build()

  {

    if (auto v = Convert::Type<Int32>::tryParseFromEnvironment("ARCANE_USE_COMPUTED_OCCUPANCY", true))

      m_use_computed_occupancy = v.value();

  }


 private:


  Int64 m_nb_kernel_launched = 0;

  bool m_is_verbose = false;

  bool m_use_computed_occupancy = false;

  impl::DeviceInfoList m_device_info_list;

  OccupancyMap m_occupancy_map;

};


/*---------------------------------------------------------------------------*/

/*---------------------------------------------------------------------------*/


void CudaRunnerRuntime::

fillDevices(bool is_verbose)

{

  int nb_device = 0;

  ARCANE_CHECK_CUDA(cudaGetDeviceCount(&nb_device));

  std::ostream& omain = std::cout;

  if (is_verbose)

    omain << "ArcaneCUDA: Initialize Arcane CUDA runtime nb_available_device=" << nb_device << "\n";

  for (int i = 0; i < nb_device; ++i) {

    cudaDeviceProp dp;

    cudaGetDeviceProperties(&dp, i);

    int runtime_version = 0;

    cudaRuntimeGetVersion(&runtime_version);

    int driver_version = 0;

    cudaDriverGetVersion(&driver_version);

    OStringStream ostr;

    std::ostream& o = ostr.stream();

    o << "Device " << i << " name=" << dp.name << "\n";

    o << " Driver version = " << (driver_version / 1000) << "." << (driver_version % 1000) << "\n";

    o << " Runtime version = " << (runtime_version / 1000) << "." << (runtime_version % 1000) << "\n";

    o << " computeCapability = " << dp.major << "." << dp.minor << "\n";

    o << " totalGlobalMem = " << dp.totalGlobalMem << "\n";

    o << " sharedMemPerBlock = " << dp.sharedMemPerBlock << "\n";

    o << " regsPerBlock = " << dp.regsPerBlock << "\n";

    o << " warpSize = " << dp.warpSize << "\n";

    o << " memPitch = " << dp.memPitch << "\n";

    o << " maxThreadsPerBlock = " << dp.maxThreadsPerBlock << "\n";

    o << " maxThreadsPerMultiProcessor = " << dp.maxThreadsPerMultiProcessor << "\n";

    o << " totalConstMem = " << dp.totalConstMem << "\n";

    o << " cooperativeLaunch = " << dp.cooperativeLaunch << "\n";

    o << " multiProcessorCount = " << dp.multiProcessorCount << "\n";

    o << " integrated = " << dp.integrated << "\n";

    o << " canMapHostMemory = " << dp.canMapHostMemory << "\n";

    o << " directManagedMemAccessFromHost = " << dp.directManagedMemAccessFromHost << "\n";

    o << " hostNativeAtomicSupported = " << dp.hostNativeAtomicSupported << "\n";

    o << " pageableMemoryAccess = " << dp.pageableMemoryAccess << "\n";

    o << " concurrentManagedAccess = " << dp.concurrentManagedAccess << "\n";

    o << " pageableMemoryAccessUsesHostPageTables = " << dp.pageableMemoryAccessUsesHostPageTables << "\n";

    o << " hostNativeAtomicSupported = " << dp.hostNativeAtomicSupported << "\n";

    o << " maxThreadsDim = " << dp.maxThreadsDim[0] << " " << dp.maxThreadsDim[1]

      << " " << dp.maxThreadsDim[2] << "\n";

    o << " maxGridSize = " << dp.maxGridSize[0] << " " << dp.maxGridSize[1]

      << " " << dp.maxGridSize[2] << "\n";

#if !defined(ARCANE_USING_CUDA13_OR_GREATER)

    o << " clockRate = " << dp.clockRate << "\n";

    o << " deviceOverlap = " << dp.deviceOverlap << "\n";

    o << " computeMode = " << dp.computeMode << "\n";

    o << " kernelExecTimeoutEnabled = " << dp.kernelExecTimeoutEnabled << "\n";

#endif


    {

      int least_val = 0;

      int greatest_val = 0;

      ARCANE_CHECK_CUDA(cudaDeviceGetStreamPriorityRange(&least_val, &greatest_val));

      o << " leastPriority = " << least_val << " greatestPriority = " << greatest_val << "\n";

    }

    {

      CUdevice device;

      ARCANE_CHECK_CUDA(cuDeviceGet(&device, i));

      CUuuid device_uuid;

      ARCANE_CHECK_CUDA(cuDeviceGetUuid(&device_uuid, device));

      o << " deviceUuid=";

      impl::printUUID(o, device_uuid.bytes);

      o << "\n";

    }

    String description(ostr.str());

    if (is_verbose)

      omain << description;


    DeviceInfo device_info;

    device_info.setDescription(description);

    device_info.setDeviceId(DeviceId(i));

    device_info.setName(dp.name);

    device_info.setWarpSize(dp.warpSize);

    m_device_info_list.addDevice(device_info);

  }


  Int32 global_cupti_level = 0;


  // Regarde si on active Cupti

  if (auto v = Convert::Type<Int32>::tryParseFromEnvironment("ARCANE_CUPTI_LEVEL", true))

    global_cupti_level = v.value();

  if (auto v = Convert::Type<Int32>::tryParseFromEnvironment("ARCANE_CUPTI_FLUSH", true))

    global_cupti_flush = v.value();

  bool do_print_cupti = true;

  if (auto v = Convert::Type<Int32>::tryParseFromEnvironment("ARCANE_CUPTI_PRINT", true))

    do_print_cupti = (v.value() != 0);


  if (global_cupti_level > 0) {

#ifndef ARCANE_HAS_CUDA_CUPTI

    ARCANE_FATAL("Trying to enable CUPTI but Arcane is not compiled with cupti support");

#endif

    global_cupti_info.init(global_cupti_level, do_print_cupti);

    global_cupti_info.start();

  }

}


/*---------------------------------------------------------------------------*/

/*---------------------------------------------------------------------------*/


class CudaMemoryCopier

: public IMemoryCopier

{


  void copy(ConstMemoryView from, [[maybe_unused]] eMemoryRessource from_mem,

            MutableMemoryView to, [[maybe_unused]] eMemoryRessource to_mem,

            const RunQueue* queue) override

  {

    if (queue) {

      queue->copyMemory(MemoryCopyArgs(to.bytes(), from.bytes()).addAsync(queue->isAsync()));

      return;

    }

    // 'cudaMemcpyDefault' sait automatiquement ce qu'il faut faire en tenant

    // uniquement compte de la valeur des pointeurs. Il faudrait voir si

    // utiliser \a from_mem et \a to_mem peut améliorer les performances.

    ARCANE_CHECK_CUDA(cudaMemcpy(to.data(), from.data(), from.bytes().size(), cudaMemcpyDefault));

  }


};


/*---------------------------------------------------------------------------*/

/*---------------------------------------------------------------------------*/


} // End namespace Arcane::Accelerator::Cuda


namespace

{

Arcane::Accelerator::Cuda::CudaRunnerRuntime global_cuda_runtime;

Arcane::Accelerator::Cuda::CudaMemoryCopier global_cuda_memory_copier;

} // namespace


/*---------------------------------------------------------------------------*/

/*---------------------------------------------------------------------------*/


// Cette fonction est le point d'entrée utilisé lors du chargement

// dynamique de cette bibliothèque

extern "C" ARCANE_EXPORT void

arcaneRegisterAcceleratorRuntimecuda(Arcane::Accelerator::RegisterRuntimeInfo& init_info)

{

  using namespace Arcane;

  using namespace Arcane::Accelerator::Cuda;

  global_cuda_runtime.build();

  Arcane::Accelerator::impl::setUsingCUDARuntime(true);

  Arcane::Accelerator::impl::setCUDARunQueueRuntime(&global_cuda_runtime);

  initializeCudaMemoryAllocators();

  MemoryUtils::setDefaultDataMemoryResource(eMemoryResource::UnifiedMemory);

  MemoryUtils::setAcceleratorHostMemoryAllocator(getCudaUnifiedMemoryAllocator());

  IMemoryResourceMngInternal* mrm = MemoryUtils::getDataMemoryResourceMng()->_internal();

  mrm->setIsAccelerator(true);

  mrm->setAllocator(eMemoryRessource::UnifiedMemory, getCudaUnifiedMemoryAllocator());

  mrm->setAllocator(eMemoryRessource::HostPinned, getCudaHostPinnedMemoryAllocator());

  mrm->setAllocator(eMemoryRessource::Device, getCudaDeviceMemoryAllocator());

  mrm->setCopier(&global_cuda_memory_copier);

  global_cuda_runtime.fillDevices(init_info.isVerbose());

}


/*---------------------------------------------------------------------------*/

/*---------------------------------------------------------------------------*/

ARCANE_CHECK_POINTER
#define ARCANE_CHECK_POINTER(ptr)
Macro retournant le pointeur ptr s'il est non nul ou lancant une exception s'il est nul.
Definition ArcaneGlobal.h:854

ARCANE_FATAL
#define ARCANE_FATAL(...)
Macro envoyant une exception FatalErrorException.
Definition ArcaneGlobal.h:784

Arcane::Accelerator::Cuda::CudaMemoryCopier
Definition CudaAcceleratorRuntime.cc:638

Arcane::Accelerator::Cuda::CudaMemoryCopier::copy
void copy(ConstMemoryView from, eMemoryRessource from_mem, MutableMemoryView to, eMemoryRessource to_mem, const RunQueue *queue) override
Copie les données de from vers to avec la queue queue.
Definition CudaAcceleratorRuntime.cc:639

Arcane::Accelerator::Cuda::CudaRunQueueEvent
Definition CudaAcceleratorRuntime.cc:246

Arcane::Accelerator::Cuda::CudaRunQueueStream
Definition CudaAcceleratorRuntime.cc:145

Arcane::Accelerator::Cuda::CudaRunQueueStream::notifyBeginLaunchKernel
void notifyBeginLaunchKernel(impl::RunCommandImpl &c) override
Notification avant le lancement de la commande.
Definition CudaAcceleratorRuntime.cc:165

Arcane::Accelerator::Cuda::CudaRunQueueStream::barrier
void barrier() override
Bloque jusqu'à ce que toutes les actions associées à cette file soient terminées.
Definition CudaAcceleratorRuntime.cc:183

Arcane::Accelerator::Cuda::CudaRunQueueStream::_barrierNoException
bool _barrierNoException() override
Barrière sans exception. Retourne true en cas d'erreur.
Definition CudaAcceleratorRuntime.cc:189

Arcane::Accelerator::Cuda::CudaRunQueueStream::nativeStream
Impl::NativeStream nativeStream() override
Pointeur sur la structure interne dépendante de l'implémentation.
Definition CudaAcceleratorRuntime.cc:223

Arcane::Accelerator::Cuda::CudaRunQueueStream::prefetchMemory
void prefetchMemory(const MemoryPrefetchArgs &args) override
Effectue un pré-chargement d'une zone mémoire.
Definition CudaAcceleratorRuntime.cc:202

Arcane::Accelerator::Cuda::CudaRunQueueStream::notifyEndLaunchKernel
void notifyEndLaunchKernel(impl::RunCommandImpl &) override
Notification de fin de lancement de la commande.
Definition CudaAcceleratorRuntime.cc:176

Arcane::Accelerator::Cuda::CudaRunQueueStream::copyMemory
void copyMemory(const MemoryCopyArgs &args) override
Effectue une copie entre deux zones mémoire.
Definition CudaAcceleratorRuntime.cc:193

Arcane::Accelerator::Cuda::CudaRunnerRuntime
Definition CudaAcceleratorRuntime.cc:316

Arcane::Accelerator::Cuda::CuptiInfo
Classe singleton pour gérer CUPTI.
Definition Cupti.h:38

Arcane::Accelerator::Cuda::OccupancyMap
Map contenant l'occupation idéale pour un kernel donné.
Definition CudaAcceleratorRuntime.cc:103

Arcane::Accelerator::DeviceId
Identifiant d'un composant du système.
Definition DeviceId.h:33

Arcane::Accelerator::DeviceId::isHost
bool isHost() const
Indique si l'instance est associée à l'hôte.
Definition DeviceId.h:60

Arcane::Accelerator::DeviceId::asInt32
Int32 asInt32() const
Valeur numérique du device.
Definition DeviceId.h:69

Arcane::Accelerator::DeviceId::isAccelerator
bool isAccelerator() const
Indique si l'instance est associée à un accélérateur.
Definition DeviceId.h:66

Arcane::Accelerator::DeviceInfo
Information sur un device.
Definition DeviceInfo.h:32

Arcane::Accelerator::DeviceMemoryInfo
Information mémoire d'un accélérateur.
Definition DeviceMemoryInfo.h:31

Arcane::Accelerator::IDeviceInfoList
Interface d'une liste de devices.
Definition IDeviceInfoList.h:31

Arcane::Accelerator::Impl::KernelLaunchArgs
Arguments pour lancer un kernel.
Definition KernelLaunchArgs.h:32

Arcane::Accelerator::Impl::NativeStream
Type opaque pour encapsuler une 'stream' native.
Definition NativeStream.h:54

Arcane::Accelerator::MemoryCopyArgs
Arguments pour la copie mémoire.
Definition Memory.h:61

Arcane::Accelerator::MemoryPrefetchArgs
Arguments pour le préfetching mémoire.
Definition Memory.h:123

Arcane::Accelerator::PointerAttribute
Informations sur une adresse mémoire.
Definition PointerAttribute.h:36

Arcane::Accelerator::RegisterRuntimeInfo
Informations pour initialiser le runtime accélérateur.
Definition RegisterRuntimeInfo.h:31

Arcane::Accelerator::RunQueueBuildInfo
Informations pour créer une RunQueue.
Definition RunQueueBuildInfo.h:31

Arcane::Accelerator::RunQueueBuildInfo::isDefault
bool isDefault() const
Indique si l'instance a uniquement les valeurs par défaut.
Definition RunQueueBuildInfo.h:53

Arcane::Accelerator::RunQueue
File d'exécution pour un accélérateur.
Definition core/RunQueue.h:52

Arcane::Accelerator::RunQueue::isAsync
bool isAsync() const
Indique si la file d'exécution est asynchrone.
Definition RunQueue.cc:320

Arcane::Accelerator::RunQueue::copyMemory
void copyMemory(const MemoryCopyArgs &args) const
Copie des informations entre deux zones mémoires.
Definition RunQueue.cc:237

Arcane::Accelerator::impl::DeviceInfoList
Interface d'une liste de devices.
Definition DeviceInfoList.h:35

Arcane::Accelerator::impl::IRunQueueEventImpl
Interface de l'implémentation d'un évènement.
Definition IRunQueueEventImpl.h:32

Arcane::Accelerator::impl::IRunQueueStream
Interface d'un flux d'exécution pour une RunQueue.
Definition IRunQueueStream.h:32

Arcane::Accelerator::impl::IRunnerRuntime
Interface du runtime associé à un accélérateur.
Definition IRunnerRuntime.h:35

Arcane::Accelerator::impl::RunCommandImpl
Implémentation d'une commande pour accélérateur.
Definition internal/RunCommandImpl.h:40

Arcane::ConstMemoryView
Vue constante sur une zone mémoire contigue contenant des éléments de taille fixe.
Definition arccore/src/base/arccore/base/MemoryView.h:38

Arcane::ConstMemoryView::bytes
constexpr SpanType bytes() const
Vue sous forme d'octets.
Definition arccore/src/base/arccore/base/MemoryView.h:107

Arcane::ConstMemoryView::data
constexpr const std::byte * data() const
Pointeur sur la zone mémoire.
Definition arccore/src/base/arccore/base/MemoryView.h:110

Arcane::Convert::ScalarType< Int32 >::tryParseFromEnvironment
static ARCCORE_BASE_EXPORT std::optional< Int32 > tryParseFromEnvironment(StringView s, bool throw_if_invalid)
Definition arccore/src/base/arccore/base/Convert.cc:305

Arcane::Convert::Type
Classe template pour convertir un type.
Definition arccore/src/base/arccore/base/Convert.h:177

Arcane::IMemoryCopier
Interface pour les copies mémoire avec support des accélérateurs.
Definition IMemoryCopier.h:32

Arcane::IMemoryResourceMngInternal
Partie interne à Arcane de 'IMemoryRessourceMng'.
Definition IMemoryResourceMngInternal.h:31

Arcane::IMemoryResourceMngInternal::setAllocator
virtual void setAllocator(eMemoryResource r, IMemoryAllocator *allocator)=0
Positionne l'allocateur pour la ressource r.

Arcane::IMemoryResourceMngInternal::setIsAccelerator
virtual void setIsAccelerator(bool v)=0
Indique si un accélérateur est disponible.

Arcane::IMemoryResourceMngInternal::setCopier
virtual void setCopier(IMemoryCopier *copier)=0
Positionne l'instance gérant les copies.

Arcane::IMemoryResourceMng::_internal
virtual IMemoryResourceMngInternal * _internal()=0
Interface interne.

Arcane::ITraceMng
Interface du gestionnaire de traces.
Definition arccore/src/trace/arccore/trace/ITraceMng.h:156

Arcane::MutableMemoryView
Vue modifiable sur une zone mémoire contigue contenant des éléments de taille fixe.
Definition arccore/src/base/arccore/base/MemoryView.h:156

Arcane::MutableMemoryView::data
constexpr std::byte * data() const
Pointeur sur la zone mémoire.
Definition arccore/src/base/arccore/base/MemoryView.h:218

Arcane::MutableMemoryView::bytes
constexpr SpanType bytes() const
Vue sous forme d'octets.
Definition arccore/src/base/arccore/base/MemoryView.h:215

Arcane::OStringStream
Flot de sortie lié à une String.
Definition OStringStream.h:36

Arcane::SpanImpl::data
constexpr __host__ __device__ pointer data() const noexcept
Pointeur sur le début de la vue.
Definition Span.h:537

Arcane::SpanImpl::size
constexpr __host__ __device__ SizeType size() const noexcept
Retourne la taille du tableau.
Definition Span.h:325

Arcane::String
Chaîne de caractères unicode.
Definition arccore/src/base/arccore/base/String.h:70

Arcane::String::localstr
const char * localstr() const
Retourne la conversion de l'instance dans l'encodage UTF-8.
Definition String.cc:228

Arcane::Accelerator::eMemoryAdvice
eMemoryAdvice
Conseils pour la gestion mémoire.
Definition Memory.h:34

Arcane::Accelerator::eMemoryAdvice::AccessedByHost
@ AccessedByHost
Indique que la zone mémoire est accédée par l'hôte.
Definition Memory.h:46

Arcane::Accelerator::eMemoryAdvice::PreferredLocationDevice
@ PreferredLocationDevice
Privilégié le positionnement de la mémoire sur l'accélérateur.
Definition Memory.h:40

Arcane::Accelerator::eMemoryAdvice::MostlyRead
@ MostlyRead
Indique que la zone mémoire est principalement en lecture seule.
Definition Memory.h:38

Arcane::Accelerator::eMemoryAdvice::PreferredLocationHost
@ PreferredLocationHost
Privilégié le positionnement de la mémoire sur l'hôte.
Definition Memory.h:42

Arcane::Accelerator::eMemoryAdvice::AccessedByDevice
@ AccessedByDevice
Indique que la zone mémoire est accédée par l'accélérateur.
Definition Memory.h:44

Arcane::Accelerator::ePointerMemoryType
ePointerMemoryType
Type de mémoire pour un pointeur.
Definition AcceleratorCoreGlobal.h:160

Arcane::Accelerator::eExecutionPolicy
eExecutionPolicy
Politique d'exécution pour un Runner.
Definition AcceleratorCoreGlobal.h:97

Arcane::Accelerator::eExecutionPolicy::CUDA
@ CUDA
Politique d'exécution utilisant l'environnement CUDA.
Definition AcceleratorCoreGlobal.h:105

Arcane::MemoryUtils::getDataMemoryResourceMng
IMemoryRessourceMng * getDataMemoryResourceMng()
Gestionnaire de ressource mémoire pour les données.
Definition arcane/src/arcane/utils/MemoryUtils.cc:109

Arcane::MemoryUtils::setAcceleratorHostMemoryAllocator
IMemoryAllocator * setAcceleratorHostMemoryAllocator(IMemoryAllocator *a)
Positionne l'allocateur spécifique pour les accélérateurs.
Definition arcane/src/arcane/utils/MemoryUtils.cc:188

Arcane::MemoryUtils::setDefaultDataMemoryResource
void setDefaultDataMemoryResource(eMemoryResource mem_resource)
Positionne la ressource mémoire utilisée pour l'allocateur mémoire des données.
Definition arcane/src/arcane/utils/MemoryUtils.cc:64

Arcane
-*- tab-width: 2; indent-tabs-mode: nil; coding: utf-8-with-signature -*-
Definition AcceleratorGlobal.h:36

Arcane::Int64
std::int64_t Int64
Type entier signé sur 64 bits.
Definition ArccoreGlobal.h:186

Arcane::eMemoryRessource
Arcane::eMemoryResource eMemoryRessource
Typedef pour la version Arcane historique (avec 2's')
Definition CollectionsGlobal.h:54

Arcane::eMemoryResource::HostPinned
@ HostPinned
Alloue sur l'hôte.
Definition CommonGlobal.h:139

Arcane::eMemoryResource::UnifiedMemory
@ UnifiedMemory
Alloue en utilisant la mémoire unifiée.
Definition CommonGlobal.h:143

Arcane::eMemoryResource::Device
@ Device
Alloue sur le device.
Definition CommonGlobal.h:141

Arcane::Int32
std::int32_t Int32
Type entier signé sur 32 bits.
Definition ArccoreGlobal.h:184

Arccore
Espace de nom de Arccore.
Definition CaseOptionList.cc:764