d2/d49/HipAcceleratorRuntime_8cc_source.html

// -*- tab-width: 2; indent-tabs-mode: nil; coding: utf-8-with-signature -*-

//-----------------------------------------------------------------------------

// Copyright 2000-2025 CEA (www.cea.fr) IFPEN (www.ifpenergiesnouvelles.com)

// See the top-level COPYRIGHT file for details.

// SPDX-License-Identifier: Apache-2.0

//-----------------------------------------------------------------------------

/*---------------------------------------------------------------------------*/

/* HipAcceleratorRuntime.cc                                    (C) 2000-2025 */

/*                                                                           */

/* Runtime pour 'HIP'.                                                       */

/*---------------------------------------------------------------------------*/

/*---------------------------------------------------------------------------*/


#include "arccore/accelerator_native/HipAccelerator.h"


#include "arccore/base/FatalErrorException.h"


#include "arccore/common/internal/MemoryUtilsInternal.h"

#include "arccore/common/internal/IMemoryResourceMngInternal.h"


#include "arccore/common/accelerator/RunQueueBuildInfo.h"

#include "arccore/common/accelerator/Memory.h"

#include "arccore/common/accelerator/DeviceInfoList.h"

#include "arccore/common/accelerator/KernelLaunchArgs.h"

#include "arccore/common/accelerator/RunQueue.h"

#include "arccore/common/accelerator/DeviceMemoryInfo.h"

#include "arccore/common/accelerator/NativeStream.h"

#include "arccore/common/accelerator/internal/IRunnerRuntime.h"

#include "arccore/common/accelerator/internal/RegisterRuntimeInfo.h"

#include "arccore/common/accelerator/internal/RunCommandImpl.h"

#include "arccore/common/accelerator/internal/IRunQueueStream.h"

#include "arccore/common/accelerator/internal/IRunQueueEventImpl.h"

#include "arccore/common/accelerator/internal/AcceleratorMemoryAllocatorBase.h"


#include <sstream>


#ifdef ARCCORE_HAS_ROCTX

#include <roctx.h>

#endif


using namespace Arccore;


namespace Arcane::Accelerator::Hip

{


/*---------------------------------------------------------------------------*/

/*---------------------------------------------------------------------------*/


class ConcreteAllocator

{

 public:


  virtual ~ConcreteAllocator() = default;


 public:


  virtual hipError_t _allocate(void** ptr, size_t new_size) = 0;

  virtual hipError_t _deallocate(void* ptr) = 0;

};


/*---------------------------------------------------------------------------*/

/*---------------------------------------------------------------------------*/


template <typename ConcreteAllocatorType>


class UnderlyingAllocator

: public AcceleratorMemoryAllocatorBase::IUnderlyingAllocator

{

 public:


  UnderlyingAllocator() = default;


 public:


  void* allocateMemory(size_t size) final

  {

    void* out = nullptr;

    ARCCORE_CHECK_HIP(m_concrete_allocator._allocate(&out, size));

    return out;

  }


  void freeMemory(void* ptr, [[maybe_unused]] size_t size) final

  {

    ARCCORE_CHECK_HIP_NOTHROW(m_concrete_allocator._deallocate(ptr));

  }


  void doMemoryCopy(void* destination, const void* source, Int64 size) final

  {

    ARCCORE_CHECK_HIP(hipMemcpy(destination, source, size, hipMemcpyDefault));

  }


  eMemoryResource memoryResource() const final

  {

    return m_concrete_allocator.memoryResource();

  }


 public:


  ConcreteAllocatorType m_concrete_allocator;

};


/*---------------------------------------------------------------------------*/

/*---------------------------------------------------------------------------*/


class UnifiedMemoryConcreteAllocator

: public ConcreteAllocator

{

 public:


  hipError_t _deallocate(void* ptr) final

  {

    return ::hipFree(ptr);

  }


  hipError_t _allocate(void** ptr, size_t new_size) final

  {

    auto r = ::hipMallocManaged(ptr, new_size, hipMemAttachGlobal);

    return r;

  }


  constexpr eMemoryResource memoryResource() const { return eMemoryResource::UnifiedMemory; }

};


/*---------------------------------------------------------------------------*/

/*---------------------------------------------------------------------------*/


class UnifiedMemoryHipMemoryAllocator

: public AcceleratorMemoryAllocatorBase

{

 public:


  UnifiedMemoryHipMemoryAllocator()

  : AcceleratorMemoryAllocatorBase("UnifiedMemoryHipMemory", new UnderlyingAllocator<UnifiedMemoryConcreteAllocator>())

  {

  }


 public:


  void initialize()

  {

    _doInitializeUVM(true);

  }

};


/*---------------------------------------------------------------------------*/

/*---------------------------------------------------------------------------*/


class HostPinnedConcreteAllocator

: public ConcreteAllocator

{

 public:


  hipError_t _allocate(void** ptr, size_t new_size) final

  {

    return ::hipHostMalloc(ptr, new_size);

  }

  hipError_t _deallocate(void* ptr) final

  {

    return ::hipHostFree(ptr);

  }

  constexpr eMemoryResource memoryResource() const { return eMemoryResource::HostPinned; }

};


/*---------------------------------------------------------------------------*/

/*---------------------------------------------------------------------------*/


class HostPinnedHipMemoryAllocator

: public AcceleratorMemoryAllocatorBase

{

 public:

 public:


  HostPinnedHipMemoryAllocator()

  : AcceleratorMemoryAllocatorBase("HostPinnedHipMemory", new UnderlyingAllocator<HostPinnedConcreteAllocator>())

  {

  }


 public:


  void initialize()

  {

    _doInitializeHostPinned(true);

  }

};


/*---------------------------------------------------------------------------*/

/*---------------------------------------------------------------------------*/


class DeviceConcreteAllocator

: public ConcreteAllocator

{

 public:


  DeviceConcreteAllocator()

  {

  }


  hipError_t _allocate(void** ptr, size_t new_size) final

  {

    hipError_t r = ::hipMalloc(ptr, new_size);

    return r;

  }

  hipError_t _deallocate(void* ptr) final

  {

    return ::hipFree(ptr);

  }


  constexpr eMemoryResource memoryResource() const { return eMemoryResource::Device; }

};


/*---------------------------------------------------------------------------*/

/*---------------------------------------------------------------------------*/


class DeviceHipMemoryAllocator

: public AcceleratorMemoryAllocatorBase

{


 public:


  DeviceHipMemoryAllocator()

  : AcceleratorMemoryAllocatorBase("DeviceHipMemoryAllocator", new UnderlyingAllocator<DeviceConcreteAllocator>())

  {

  }


 public:


  void initialize()

  {

    _doInitializeDevice(true);

  }

};


/*---------------------------------------------------------------------------*/

/*---------------------------------------------------------------------------*/


namespace

{

  UnifiedMemoryHipMemoryAllocator unified_memory_hip_memory_allocator;

  HostPinnedHipMemoryAllocator host_pinned_hip_memory_allocator;

  DeviceHipMemoryAllocator device_hip_memory_allocator;

} // namespace


/*---------------------------------------------------------------------------*/

/*---------------------------------------------------------------------------*/


void initializeHipMemoryAllocators()

{

  unified_memory_hip_memory_allocator.initialize();

  device_hip_memory_allocator.initialize();

  host_pinned_hip_memory_allocator.initialize();

}


void finalizeHipMemoryAllocators(ITraceMng* tm)

{

  unified_memory_hip_memory_allocator.finalize(tm);

  device_hip_memory_allocator.finalize(tm);

  host_pinned_hip_memory_allocator.finalize(tm);

}


/*---------------------------------------------------------------------------*/

/*---------------------------------------------------------------------------*/


class HipRunQueueStream

: public impl::IRunQueueStream

{

 public:


  HipRunQueueStream(impl::IRunnerRuntime* runtime, const RunQueueBuildInfo& bi)

  : m_runtime(runtime)

  {

    if (bi.isDefault())

      ARCCORE_CHECK_HIP(hipStreamCreate(&m_hip_stream));

    else {

      int priority = bi.priority();

      ARCCORE_CHECK_HIP(hipStreamCreateWithPriority(&m_hip_stream, hipStreamDefault, priority));

    }

  }

  ~HipRunQueueStream() override

  {

    ARCCORE_CHECK_HIP_NOTHROW(hipStreamDestroy(m_hip_stream));

  }


 public:


  void notifyBeginLaunchKernel([[maybe_unused]] impl::RunCommandImpl& c) override

  {

#ifdef ARCCORE_HAS_ROCTX

    auto kname = c.kernelName();

    if (kname.empty())

      roctxRangePush(c.traceInfo().name());

    else

      roctxRangePush(kname.localstr());

#endif

    return m_runtime->notifyBeginLaunchKernel();

  }


  void notifyEndLaunchKernel(impl::RunCommandImpl&) override

  {

#ifdef ARCCORE_HAS_ROCTX

    roctxRangePop();

#endif

    return m_runtime->notifyEndLaunchKernel();

  }


  void barrier() override

  {

    ARCCORE_CHECK_HIP(hipStreamSynchronize(m_hip_stream));

  }


  bool _barrierNoException() override

  {

    return hipStreamSynchronize(m_hip_stream) != hipSuccess;

  }


  void copyMemory(const MemoryCopyArgs& args) override

  {

    auto r = hipMemcpyAsync(args.destination().data(), args.source().data(),

                            args.source().bytes().size(), hipMemcpyDefault, m_hip_stream);

    ARCCORE_CHECK_HIP(r);

    if (!args.isAsync())

      barrier();

  }


  void prefetchMemory(const MemoryPrefetchArgs& args) override

  {

    auto src = args.source().bytes();

    if (src.size()==0)

      return;

    DeviceId d = args.deviceId();

    int device = hipCpuDeviceId;

    if (!d.isHost())

      device = d.asInt32();

    auto r = hipMemPrefetchAsync(src.data(), src.size(), device, m_hip_stream);

    ARCCORE_CHECK_HIP(r);

    if (!args.isAsync())

      barrier();

  }


  Impl::NativeStream nativeStream() override

  {

    return Impl::NativeStream(&m_hip_stream);

  }


 public:


  hipStream_t trueStream() const

  {

    return m_hip_stream;

  }


 private:


  impl::IRunnerRuntime* m_runtime;

  hipStream_t m_hip_stream;

};


/*---------------------------------------------------------------------------*/

/*---------------------------------------------------------------------------*/


class HipRunQueueEvent

: public impl::IRunQueueEventImpl

{

 public:


  explicit HipRunQueueEvent(bool has_timer)

  {

    if (has_timer)

      ARCCORE_CHECK_HIP(hipEventCreate(&m_hip_event));

    else

      ARCCORE_CHECK_HIP(hipEventCreateWithFlags(&m_hip_event, hipEventDisableTiming));

  }

  ~HipRunQueueEvent() override

  {

    ARCCORE_CHECK_HIP_NOTHROW(hipEventDestroy(m_hip_event));

  }


 public:


  // Enregistre l'événement au sein d'une RunQueue

  void recordQueue(impl::IRunQueueStream* stream) final

  {

    auto* rq = static_cast<HipRunQueueStream*>(stream);

    ARCCORE_CHECK_HIP(hipEventRecord(m_hip_event, rq->trueStream()));

  }


  void wait() final

  {

    ARCCORE_CHECK_HIP(hipEventSynchronize(m_hip_event));

  }


  void waitForEvent(impl::IRunQueueStream* stream) final

  {

    auto* rq = static_cast<HipRunQueueStream*>(stream);

    ARCCORE_CHECK_HIP(hipStreamWaitEvent(rq->trueStream(), m_hip_event, 0));

  }


  Int64 elapsedTime(IRunQueueEventImpl* from_event) final

  {

    auto* true_from_event = static_cast<HipRunQueueEvent*>(from_event);

    ARCCORE_CHECK_POINTER(true_from_event);

    float time_in_ms = 0.0;

    ARCCORE_CHECK_HIP(hipEventElapsedTime(&time_in_ms, true_from_event->m_hip_event, m_hip_event));

    double x = time_in_ms * 1.0e6;

    Int64 nano_time = static_cast<Int64>(x);

    return nano_time;

  }


  bool hasPendingWork() final

  {

    hipError_t v = hipEventQuery(m_hip_event);

    if (v == hipErrorNotReady)

      return true;

    ARCCORE_CHECK_HIP(v);

    return false;

  }


 private:


  hipEvent_t m_hip_event;

};


/*---------------------------------------------------------------------------*/

/*---------------------------------------------------------------------------*/


class HipRunnerRuntime

: public impl::IRunnerRuntime

{

 public:


  ~HipRunnerRuntime() override = default;


 public:


  void notifyBeginLaunchKernel() override

  {

    ++m_nb_kernel_launched;

    if (m_is_verbose)

      std::cout << "BEGIN HIP KERNEL!\n";

  }

  void notifyEndLaunchKernel() override

  {

    ARCCORE_CHECK_HIP(hipGetLastError());

    if (m_is_verbose)

      std::cout << "END HIP KERNEL!\n";

  }

  void barrier() override

  {

    ARCCORE_CHECK_HIP(hipDeviceSynchronize());

  }

  eExecutionPolicy executionPolicy() const override

  {

    return eExecutionPolicy::HIP;

  }

  impl::IRunQueueStream* createStream(const RunQueueBuildInfo& bi) override

  {

    return new HipRunQueueStream(this, bi);

  }

  impl::IRunQueueEventImpl* createEventImpl() override

  {

    return new HipRunQueueEvent(false);

  }

  impl::IRunQueueEventImpl* createEventImplWithTimer() override

  {

    return new HipRunQueueEvent(true);

  }

  void setMemoryAdvice(ConstMemoryView buffer, eMemoryAdvice advice, DeviceId device_id) override

  {

    auto v = buffer.bytes();

    const void* ptr = v.data();

    size_t count = v.size();

    int device = device_id.asInt32();

    hipMemoryAdvise hip_advise;


    if (advice == eMemoryAdvice::MostlyRead)

      hip_advise = hipMemAdviseSetReadMostly;

    else if (advice == eMemoryAdvice::PreferredLocationDevice)

      hip_advise = hipMemAdviseSetPreferredLocation;

    else if (advice == eMemoryAdvice::AccessedByDevice)

      hip_advise = hipMemAdviseSetAccessedBy;

    else if (advice == eMemoryAdvice::PreferredLocationHost) {

      hip_advise = hipMemAdviseSetPreferredLocation;

      device = hipCpuDeviceId;

    }

    else if (advice == eMemoryAdvice::AccessedByHost) {

      hip_advise = hipMemAdviseSetAccessedBy;

      device = hipCpuDeviceId;

    }

    else

      return;

    //std::cout << "MEMADVISE p=" << ptr << " size=" << count << " advise = " << hip_advise << " id = " << device << "\n";

    ARCCORE_CHECK_HIP(hipMemAdvise(ptr, count, hip_advise, device));

  }

  void unsetMemoryAdvice(ConstMemoryView buffer, eMemoryAdvice advice, DeviceId device_id) override

  {

    auto v = buffer.bytes();

    const void* ptr = v.data();

    size_t count = v.size();

    int device = device_id.asInt32();

    hipMemoryAdvise hip_advise;


    if (advice == eMemoryAdvice::MostlyRead)

      hip_advise = hipMemAdviseUnsetReadMostly;

    else if (advice == eMemoryAdvice::PreferredLocationDevice)

      hip_advise = hipMemAdviseUnsetPreferredLocation;

    else if (advice == eMemoryAdvice::AccessedByDevice)

      hip_advise = hipMemAdviseUnsetAccessedBy;

    else if (advice == eMemoryAdvice::PreferredLocationHost) {

      hip_advise = hipMemAdviseUnsetPreferredLocation;

      device = hipCpuDeviceId;

    }

    else if (advice == eMemoryAdvice::AccessedByHost) {

      hip_advise = hipMemAdviseUnsetAccessedBy;

      device = hipCpuDeviceId;

    }

    else

      return;

    ARCCORE_CHECK_HIP(hipMemAdvise(ptr, count, hip_advise, device));

  }


  void setCurrentDevice(DeviceId device_id) final

  {

    Int32 id = device_id.asInt32();

    ARCCORE_FATAL_IF(!device_id.isAccelerator(), "Device {0} is not an accelerator device", id);

    ARCCORE_CHECK_HIP(hipSetDevice(id));

  }

  const IDeviceInfoList* deviceInfoList() override { return &m_device_info_list; }


  void getPointerAttribute(PointerAttribute& attribute, const void* ptr) override

  {

    hipPointerAttribute_t pa;

    hipError_t ret_value = hipPointerGetAttributes(&pa, ptr);

    auto mem_type = ePointerMemoryType::Unregistered;

    // Si \a ptr n'a pas été alloué dynamiquement (i.e: il est sur la pile),

    // hipPointerGetAttribute() retourne une erreur. Dans ce cas on considère

    // la mémoire comme non enregistrée.

    if (ret_value==hipSuccess){

#if HIP_VERSION_MAJOR >= 6

      auto rocm_memory_type = pa.type;

#else

      auto rocm_memory_type = pa.memoryType;

#endif

      if (pa.isManaged)

        mem_type = ePointerMemoryType::Managed;

      else if (rocm_memory_type == hipMemoryTypeHost)

        mem_type = ePointerMemoryType::Host;

      else if (rocm_memory_type == hipMemoryTypeDevice)

        mem_type = ePointerMemoryType::Device;

    }


    //std::cout << "HIP Info: hip_memory_type=" << (int)pa.memoryType << " is_managed?=" << pa.isManaged

    //          << " flags=" << pa.allocationFlags

    //          << " my_memory_type=" << (int)mem_type

    //          << "\n";

    _fillPointerAttribute(attribute, mem_type, pa.device,

                          ptr, pa.devicePointer, pa.hostPointer);

  }


  DeviceMemoryInfo getDeviceMemoryInfo(DeviceId device_id) override

  {

    int d = 0;

    int wanted_d = device_id.asInt32();

    ARCCORE_CHECK_HIP(hipGetDevice(&d));

    if (d != wanted_d)

      ARCCORE_CHECK_HIP(hipSetDevice(wanted_d));

    size_t free_mem = 0;

    size_t total_mem = 0;

    ARCCORE_CHECK_HIP(hipMemGetInfo(&free_mem, &total_mem));

    if (d != wanted_d)

      ARCCORE_CHECK_HIP(hipSetDevice(d));

    DeviceMemoryInfo dmi;

    dmi.setFreeMemory(free_mem);

    dmi.setTotalMemory(total_mem);

    return dmi;

  }


  void pushProfilerRange(const String& name, [[maybe_unused]] Int32 color) override

  {

#ifdef ARCCORE_HAS_ROCTX

    roctxRangePush(name.localstr());

#endif

  }

  void popProfilerRange() override

  {

#ifdef ARCCORE_HAS_ROCTX

    roctxRangePop();

#endif

  }


  void finalize(ITraceMng* tm) override

  {

    finalizeHipMemoryAllocators(tm);

  }


 public:


  void fillDevices(bool is_verbose);


 private:


  Int64 m_nb_kernel_launched = 0;

  bool m_is_verbose = false;

  impl::DeviceInfoList m_device_info_list;

};


/*---------------------------------------------------------------------------*/

/*---------------------------------------------------------------------------*/


void HipRunnerRuntime::

fillDevices(bool is_verbose)

{

  int nb_device = 0;

  ARCCORE_CHECK_HIP(hipGetDeviceCount(&nb_device));

  std::ostream& omain = std::cout;

  if (is_verbose)

    omain << "ArcaneHIP: Initialize Arcane HIP runtime nb_available_device=" << nb_device << "\n";

  for (int i = 0; i < nb_device; ++i) {

    std::ostringstream ostr;

    std::ostream& o = ostr;


    hipDeviceProp_t dp;

    ARCCORE_CHECK_HIP(hipGetDeviceProperties(&dp, i));


    int has_managed_memory = 0;

    ARCCORE_CHECK_HIP(hipDeviceGetAttribute(&has_managed_memory, hipDeviceAttributeManagedMemory, i));


    // Le format des versions dans HIP est:

    // HIP_VERSION  =  (HIP_VERSION_MAJOR * 10000000 + HIP_VERSION_MINOR * 100000 + HIP_VERSION_PATCH)


    int runtime_version = 0;

    ARCCORE_CHECK_HIP(hipRuntimeGetVersion(&runtime_version));

    //runtime_version /= 10000;

    int runtime_major = runtime_version / 10000000;

    int runtime_minor = (runtime_version / 100000) % 100;


    int driver_version = 0;

    ARCCORE_CHECK_HIP(hipDriverGetVersion(&driver_version));

    //driver_version /= 10000;

    int driver_major = driver_version / 10000000;

    int driver_minor = (driver_version / 100000) % 100;


    o << "\nDevice " << i << " name=" << dp.name << "\n";

    o << " Driver version = " << driver_major << "." << (driver_minor) << "." << (driver_version % 100000) << "\n";

    o << " Runtime version = " << runtime_major << "." << (runtime_minor) << "." << (runtime_version % 100000) << "\n";

    o << " computeCapability = " << dp.major << "." << dp.minor << "\n";

    o << " totalGlobalMem = " << dp.totalGlobalMem << "\n";

    o << " sharedMemPerBlock = " << dp.sharedMemPerBlock << "\n";

    o << " sharedMemPerMultiprocessor = " << dp.sharedMemPerMultiprocessor << "\n";

    o << " sharedMemPerBlockOptin = " << dp.sharedMemPerBlockOptin << "\n";

    o << " regsPerBlock = " << dp.regsPerBlock << "\n";

    o << " warpSize = " << dp.warpSize << "\n";

    o << " memPitch = " << dp.memPitch << "\n";

    o << " maxThreadsPerBlock = " << dp.maxThreadsPerBlock << "\n";

    o << " totalConstMem = " << dp.totalConstMem << "\n";

    o << " clockRate = " << dp.clockRate << "\n";

    //o << " deviceOverlap = " << dp.deviceOverlap<< "\n";

    o << " multiProcessorCount = " << dp.multiProcessorCount << "\n";

    o << " kernelExecTimeoutEnabled = " << dp.kernelExecTimeoutEnabled << "\n";

    o << " integrated = " << dp.integrated << "\n";

    o << " canMapHostMemory = " << dp.canMapHostMemory << "\n";

    o << " computeMode = " << dp.computeMode << "\n";

    o << " maxThreadsDim = " << dp.maxThreadsDim[0] << " " << dp.maxThreadsDim[1]

      << " " << dp.maxThreadsDim[2] << "\n";

    o << " maxGridSize = " << dp.maxGridSize[0] << " " << dp.maxGridSize[1]

      << " " << dp.maxGridSize[2] << "\n";

    o << " concurrentManagedAccess = " << dp.concurrentManagedAccess << "\n";

    o << " directManagedMemAccessFromHost = " << dp.directManagedMemAccessFromHost << "\n";

    o << " gcnArchName = " << dp.gcnArchName << "\n";

    o << " pageableMemoryAccess = " << dp.pageableMemoryAccess << "\n";

    o << " pageableMemoryAccessUsesHostPageTables = " << dp.pageableMemoryAccessUsesHostPageTables << "\n";

    o << " hasManagedMemory = " << has_managed_memory << "\n";

    o << " pciInfo = " << dp.pciDomainID << " " << dp.pciBusID << " " << dp.pciDeviceID << "\n";

#if HIP_VERSION_MAJOR >= 6

    o << " gpuDirectRDMASupported = " << dp.gpuDirectRDMASupported << "\n";

    o << " hostNativeAtomicSupported = " << dp.hostNativeAtomicSupported << "\n";

    o << " unifiedFunctionPointers = " << dp.unifiedFunctionPointers << "\n";

#endif

    std::ostringstream device_uuid_ostr;

    {

      hipDevice_t device;

      ARCCORE_CHECK_HIP(hipDeviceGet(&device, i));

      hipUUID device_uuid;

      ARCCORE_CHECK_HIP(hipDeviceGetUuid(&device_uuid, device));

      o << " deviceUuid=";

      impl::printUUID(device_uuid_ostr, device_uuid.bytes);

      o << device_uuid_ostr.str();

      o << "\n";

    }


    String description(ostr.str());

    if (is_verbose)

      omain << description;


    DeviceInfo device_info;

    device_info.setDescription(description);

    device_info.setDeviceId(DeviceId(i));

    device_info.setName(dp.name);

    device_info.setWarpSize(dp.warpSize);

    device_info.setUUIDAsString(device_uuid_ostr.str());

    device_info.setSharedMemoryPerBlock(static_cast<Int32>(dp.sharedMemPerBlock));

    device_info.setSharedMemoryPerMultiprocessor(static_cast<Int32>(dp.sharedMemPerMultiprocessor));

    device_info.setSharedMemoryPerBlockOptin(static_cast<Int32>(dp.sharedMemPerBlockOptin));

    device_info.setTotalConstMemory(static_cast<Int32>(dp.totalConstMem));

    device_info.setPCIDomainID(dp.pciDomainID);

    device_info.setPCIBusID(dp.pciBusID);

    device_info.setPCIDeviceID(dp.pciDeviceID);

    m_device_info_list.addDevice(device_info);

  }

}


/*---------------------------------------------------------------------------*/

/*---------------------------------------------------------------------------*/


class HipMemoryCopier

: public IMemoryCopier

{


  void copy(ConstMemoryView from, [[maybe_unused]] eMemoryResource from_mem,

            MutableMemoryView to, [[maybe_unused]] eMemoryResource to_mem,

            const RunQueue* queue) override

  {

    if (queue) {

      queue->copyMemory(MemoryCopyArgs(to.bytes(), from.bytes()).addAsync(queue->isAsync()));

      return;

    }

    // 'hipMemcpyDefault' sait automatiquement ce qu'il faut faire en tenant

    // uniquement compte de la valeur des pointeurs. Il faudrait voir si

    // utiliser \a from_mem et \a to_mem peut améliorer les performances.

    ARCCORE_CHECK_HIP(hipMemcpy(to.data(), from.data(), from.bytes().size(), hipMemcpyDefault));

  }


};


/*---------------------------------------------------------------------------*/

/*---------------------------------------------------------------------------*/


} // End namespace Arcane::Accelerator::Hip


using namespace Arcane;


namespace

{

Arcane::Accelerator::Hip::HipRunnerRuntime global_hip_runtime;

Arcane::Accelerator::Hip::HipMemoryCopier global_hip_memory_copier;


void _setAllocator(Accelerator::AcceleratorMemoryAllocatorBase* allocator)

{

  IMemoryResourceMngInternal* mrm = MemoryUtils::getDataMemoryResourceMng()->_internal();

  eMemoryResource mem = allocator->memoryResource();

  mrm->setAllocator(mem, allocator);

  mrm->setMemoryPool(mem, allocator->memoryPool());

}

}


/*---------------------------------------------------------------------------*/

/*---------------------------------------------------------------------------*/


// Cette fonction est le point d'entrée utilisé lors du chargement

// dynamique de cette bibliothèque

extern "C" ARCCORE_EXPORT void

arcaneRegisterAcceleratorRuntimehip(Arcane::Accelerator::RegisterRuntimeInfo& init_info)

{

  using namespace Arcane::Accelerator::Hip;

  Arcane::Accelerator::impl::setUsingHIPRuntime(true);

  Arcane::Accelerator::impl::setHIPRunQueueRuntime(&global_hip_runtime);

  initializeHipMemoryAllocators();

  MemoryUtils::setDefaultDataMemoryResource(eMemoryResource::UnifiedMemory);

  MemoryUtils::setAcceleratorHostMemoryAllocator(&unified_memory_hip_memory_allocator);

  IMemoryResourceMngInternal* mrm = MemoryUtils::getDataMemoryResourceMng()->_internal();

  mrm->setIsAccelerator(true);

  _setAllocator(&unified_memory_hip_memory_allocator);

  _setAllocator(&host_pinned_hip_memory_allocator);

  _setAllocator(&device_hip_memory_allocator);

  mrm->setCopier(&global_hip_memory_copier);

  global_hip_runtime.fillDevices(init_info.isVerbose());

}


/*---------------------------------------------------------------------------*/

/*---------------------------------------------------------------------------*/

ARCCORE_CHECK_POINTER
#define ARCCORE_CHECK_POINTER(ptr)
Macro retournant le pointeur ptr s'il est non nul ou lancant une exception s'il est nul.
Definition ArccoreGlobal.h:763

ARCCORE_FATAL_IF
#define ARCCORE_FATAL_IF(cond,...)
Macro envoyant une exception FatalErrorException si cond est vrai.
Definition ArccoreGlobal.h:543

Arcane::Accelerator::AcceleratorMemoryAllocatorBase::IUnderlyingAllocator
Definition AcceleratorMemoryAllocatorBase.h:154

Arcane::Accelerator::AcceleratorMemoryAllocatorBase
Classe de base d'un allocateur spécifique pour accélérateur.
Definition AcceleratorMemoryAllocatorBase.h:134

Arcane::Accelerator::AcceleratorMemoryAllocatorBase::memoryResource
eMemoryResource memoryResource() const final
Ressource mémoire fournie par l'allocateur.
Definition AcceleratorMemoryAllocatorBase.h:202

Arcane::Accelerator::AcceleratorMemoryAllocatorBase::_doInitializeDevice
void _doInitializeDevice(bool default_use_memory_pool=false)
Initialisation pour la mémoire Device.
Definition AcceleratorMemoryAllocatorBase.cc:147

Arcane::Accelerator::AcceleratorMemoryAllocatorBase::_doInitializeHostPinned
void _doInitializeHostPinned(bool default_use_memory_pool=false)
Initialisation pour la mémoire HostPinned.
Definition AcceleratorMemoryAllocatorBase.cc:136

Arcane::Accelerator::AcceleratorMemoryAllocatorBase::_doInitializeUVM
void _doInitializeUVM(bool default_use_memory_pool=false)
Initialisation pour la mémoire UVM.
Definition AcceleratorMemoryAllocatorBase.cc:120

Arcane::Accelerator::DeviceId
Identifiant d'un composant du système.
Definition arccore/src/common/arccore/common/accelerator/DeviceId.h:33

Arcane::Accelerator::DeviceId::isHost
bool isHost() const
Indique si l'instance est associée à l'hôte.
Definition arccore/src/common/arccore/common/accelerator/DeviceId.h:60

Arcane::Accelerator::DeviceId::asInt32
Int32 asInt32() const
Valeur numérique du device.
Definition arccore/src/common/arccore/common/accelerator/DeviceId.h:69

Arcane::Accelerator::DeviceId::isAccelerator
bool isAccelerator() const
Indique si l'instance est associée à un accélérateur.
Definition arccore/src/common/arccore/common/accelerator/DeviceId.h:66

Arcane::Accelerator::DeviceInfo
Information sur un accélérateur.
Definition arccore/src/common/arccore/common/accelerator/DeviceInfo.h:32

Arcane::Accelerator::DeviceMemoryInfo
Information mémoire d'un accélérateur.
Definition arccore/src/common/arccore/common/accelerator/DeviceMemoryInfo.h:31

Arcane::Accelerator::Hip::ConcreteAllocator
Definition HipAcceleratorRuntime.cc:50

Arcane::Accelerator::Hip::DeviceHipMemoryAllocator
Definition HipAcceleratorRuntime.cc:214

Arcane::Accelerator::Hip::HipMemoryCopier
Definition HipAcceleratorRuntime.cc:707

Arcane::Accelerator::Hip::HipMemoryCopier::copy
void copy(ConstMemoryView from, eMemoryResource from_mem, MutableMemoryView to, eMemoryResource to_mem, const RunQueue *queue) override
Copie les données de from vers to avec la queue queue.
Definition HipAcceleratorRuntime.cc:708

Arcane::Accelerator::Hip::HipRunQueueEvent
Definition HipAcceleratorRuntime.cc:354

Arcane::Accelerator::Hip::HipRunQueueStream
Definition HipAcceleratorRuntime.cc:263

Arcane::Accelerator::Hip::HipRunQueueStream::notifyBeginLaunchKernel
void notifyBeginLaunchKernel(impl::RunCommandImpl &c) override
Notification avant le lancement de la commande.
Definition HipAcceleratorRuntime.cc:283

Arcane::Accelerator::Hip::HipRunQueueStream::_barrierNoException
bool _barrierNoException() override
Barrière sans exception. Retourne true en cas d'erreur.
Definition HipAcceleratorRuntime.cc:305

Arcane::Accelerator::Hip::HipRunQueueStream::barrier
void barrier() override
Bloque jusqu'à ce que toutes les actions associées à cette file soient terminées.
Definition HipAcceleratorRuntime.cc:301

Arcane::Accelerator::Hip::HipRunQueueStream::notifyEndLaunchKernel
void notifyEndLaunchKernel(impl::RunCommandImpl &) override
Notification de fin de lancement de la commande.
Definition HipAcceleratorRuntime.cc:294

Arcane::Accelerator::Hip::HipRunQueueStream::prefetchMemory
void prefetchMemory(const MemoryPrefetchArgs &args) override
Effectue un pré-chargement d'une zone mémoire.
Definition HipAcceleratorRuntime.cc:317

Arcane::Accelerator::Hip::HipRunQueueStream::copyMemory
void copyMemory(const MemoryCopyArgs &args) override
Effectue une copie entre deux zones mémoire.
Definition HipAcceleratorRuntime.cc:309

Arcane::Accelerator::Hip::HipRunQueueStream::nativeStream
Impl::NativeStream nativeStream() override
Pointeur sur la structure interne dépendante de l'implémentation.
Definition HipAcceleratorRuntime.cc:331

Arcane::Accelerator::Hip::HipRunnerRuntime
Definition HipAcceleratorRuntime.cc:419

Arcane::Accelerator::Hip::HostPinnedConcreteAllocator
Definition HipAcceleratorRuntime.cc:148

Arcane::Accelerator::Hip::HostPinnedHipMemoryAllocator
Definition HipAcceleratorRuntime.cc:167

Arcane::Accelerator::Hip::UnderlyingAllocator
Definition HipAcceleratorRuntime.cc:67

Arcane::Accelerator::Hip::UnderlyingAllocator::allocateMemory
void * allocateMemory(size_t size) final
Alloue un bloc pour size octets.
Definition HipAcceleratorRuntime.cc:74

Arcane::Accelerator::Hip::UnderlyingAllocator::freeMemory
void freeMemory(void *ptr, size_t size) final
Libère le bloc situé à l'adresse address contenant size octets.
Definition HipAcceleratorRuntime.cc:80

Arcane::Accelerator::Hip::UnifiedMemoryConcreteAllocator
Definition HipAcceleratorRuntime.cc:105

Arcane::Accelerator::Hip::UnifiedMemoryHipMemoryAllocator
Definition HipAcceleratorRuntime.cc:127

Arcane::Accelerator::IDeviceInfoList
Interface d'une liste de devices.
Definition arccore/src/common/arccore/common/accelerator/IDeviceInfoList.h:31

Arcane::Accelerator::Impl::NativeStream
Type opaque pour encapsuler une 'stream' native.
Definition arccore/src/common/arccore/common/accelerator/NativeStream.h:54

Arcane::Accelerator::MemoryCopyArgs
Arguments pour la copie mémoire.
Definition arccore/src/common/arccore/common/accelerator/Memory.h:61

Arcane::Accelerator::MemoryPrefetchArgs
Arguments pour le préfetching mémoire.
Definition arccore/src/common/arccore/common/accelerator/Memory.h:123

Arcane::Accelerator::PointerAttribute
Informations sur une adresse mémoire.
Definition arccore/src/common/arccore/common/accelerator/PointerAttribute.h:36

Arcane::Accelerator::RunQueueBuildInfo
Informations pour créer une RunQueue.
Definition arccore/src/common/arccore/common/accelerator/RunQueueBuildInfo.h:31

Arcane::Accelerator::RunQueueBuildInfo::isDefault
bool isDefault() const
Indique si l'instance a uniquement les valeurs par défaut.
Definition arccore/src/common/arccore/common/accelerator/RunQueueBuildInfo.h:53

Arcane::Accelerator::RunQueue
File d'exécution pour un accélérateur.
Definition arccore/src/common/arccore/common/accelerator/RunQueue.h:52

Arcane::Accelerator::RunQueue::isAsync
bool isAsync() const
Indique si la file d'exécution est asynchrone.
Definition RunQueue.cc:320

Arcane::Accelerator::RunQueue::copyMemory
void copyMemory(const MemoryCopyArgs &args) const
Copie des informations entre deux zones mémoires.
Definition RunQueue.cc:237

Arcane::Accelerator::impl::DeviceInfoList
Interface d'une liste de devices.
Definition arccore/src/common/arccore/common/accelerator/DeviceInfoList.h:35

Arcane::Accelerator::impl::IRunQueueEventImpl
Interface de l'implémentation d'un évènement.
Definition IRunQueueEventImpl.h:32

Arcane::Accelerator::impl::IRunQueueStream
Interface d'un flux d'exécution pour une RunQueue.
Definition IRunQueueStream.h:32

Arcane::Accelerator::impl::IRunnerRuntime
Interface du runtime associé à un accélérateur.
Definition IRunnerRuntime.h:35

Arcane::Accelerator::impl::RunCommandImpl
Implémentation d'une commande pour accélérateur.
Definition arccore/src/common/arccore/common/accelerator/internal/RunCommandImpl.h:40

Arcane::ConstMemoryView
Vue constante sur une zone mémoire contigue contenant des éléments de taille fixe.
Definition arccore/src/base/arccore/base/MemoryView.h:38

Arcane::ConstMemoryView::bytes
constexpr SpanType bytes() const
Vue sous forme d'octets.
Definition arccore/src/base/arccore/base/MemoryView.h:107

Arcane::ConstMemoryView::data
constexpr const std::byte * data() const
Pointeur sur la zone mémoire.
Definition arccore/src/base/arccore/base/MemoryView.h:110

Arcane::IMemoryCopier
Interface pour les copies mémoire avec support des accélérateurs.
Definition IMemoryCopier.h:32

Arcane::IMemoryResourceMngInternal
Partie interne à Arcane de 'IMemoryRessourceMng'.
Definition IMemoryResourceMngInternal.h:31

Arcane::IMemoryResourceMngInternal::setAllocator
virtual void setAllocator(eMemoryResource r, IMemoryAllocator *allocator)=0
Positionne l'allocateur pour la ressource r.

Arcane::IMemoryResourceMngInternal::setMemoryPool
virtual void setMemoryPool(eMemoryResource r, IMemoryPool *pool)=0
Positionne le pool mémoire pour la ressource r.

Arcane::IMemoryResourceMngInternal::setIsAccelerator
virtual void setIsAccelerator(bool v)=0
Indique si un accélérateur est disponible.

Arcane::IMemoryResourceMngInternal::setCopier
virtual void setCopier(IMemoryCopier *copier)=0
Positionne l'instance gérant les copies.

Arcane::IMemoryResourceMng::_internal
virtual IMemoryResourceMngInternal * _internal()=0
Interface interne.

Arcane::ITraceMng
Interface du gestionnaire de traces.
Definition arccore/src/trace/arccore/trace/ITraceMng.h:156

Arcane::MutableMemoryView
Vue modifiable sur une zone mémoire contigue contenant des éléments de taille fixe.
Definition arccore/src/base/arccore/base/MemoryView.h:156

Arcane::MutableMemoryView::data
constexpr std::byte * data() const
Pointeur sur la zone mémoire.
Definition arccore/src/base/arccore/base/MemoryView.h:218

Arcane::MutableMemoryView::bytes
constexpr SpanType bytes() const
Vue sous forme d'octets.
Definition arccore/src/base/arccore/base/MemoryView.h:215

Arcane::SpanImpl::data
constexpr __host__ __device__ pointer data() const noexcept
Pointeur sur le début de la vue.
Definition Span.h:537

Arcane::SpanImpl::size
constexpr __host__ __device__ SizeType size() const noexcept
Retourne la taille du tableau.
Definition Span.h:325

Arcane::String
Chaîne de caractères unicode.
Definition arccore/src/base/arccore/base/String.h:70

Arcane::String::localstr
const char * localstr() const
Retourne la conversion de l'instance dans l'encodage UTF-8.
Definition String.cc:228

Arcane::Accelerator::eMemoryAdvice
eMemoryAdvice
Conseils pour la gestion mémoire.
Definition arccore/src/common/arccore/common/accelerator/Memory.h:34

Arcane::Accelerator::eMemoryAdvice::AccessedByHost
@ AccessedByHost
Indique que la zone mémoire est accédée par l'hôte.
Definition arccore/src/common/arccore/common/accelerator/Memory.h:46

Arcane::Accelerator::eMemoryAdvice::PreferredLocationDevice
@ PreferredLocationDevice
Privilégié le positionnement de la mémoire sur l'accélérateur.
Definition arccore/src/common/arccore/common/accelerator/Memory.h:40

Arcane::Accelerator::eMemoryAdvice::MostlyRead
@ MostlyRead
Indique que la zone mémoire est principalement en lecture seule.
Definition arccore/src/common/arccore/common/accelerator/Memory.h:38

Arcane::Accelerator::eMemoryAdvice::PreferredLocationHost
@ PreferredLocationHost
Privilégié le positionnement de la mémoire sur l'hôte.
Definition arccore/src/common/arccore/common/accelerator/Memory.h:42

Arcane::Accelerator::eMemoryAdvice::AccessedByDevice
@ AccessedByDevice
Indique que la zone mémoire est accédée par l'accélérateur.
Definition arccore/src/common/arccore/common/accelerator/Memory.h:44

Arcane::Accelerator::eExecutionPolicy
eExecutionPolicy
Politique d'exécution pour un Runner.
Definition CommonAcceleratorGlobal.h:92

Arcane::Accelerator::eExecutionPolicy::HIP
@ HIP
Politique d'exécution utilisant l'environnement HIP.
Definition CommonAcceleratorGlobal.h:102

Arcane::MemoryUtils::getDataMemoryResourceMng
ARCCORE_COMMON_EXPORT IMemoryRessourceMng * getDataMemoryResourceMng()
Gestionnaire de ressource mémoire pour les données.
Definition arccore/src/common/arccore/common/MemoryUtils.cc:128

Arcane::MemoryUtils::setAcceleratorHostMemoryAllocator
ARCCORE_COMMON_EXPORT IMemoryAllocator * setAcceleratorHostMemoryAllocator(IMemoryAllocator *a)
Positionne l'allocateur spécifique pour les accélérateurs.
Definition arccore/src/common/arccore/common/MemoryUtils.cc:149

Arcane::MemoryUtils::setDefaultDataMemoryResource
ARCCORE_COMMON_EXPORT void setDefaultDataMemoryResource(eMemoryResource mem_resource)
Positionne la ressource mémoire utilisée pour l'allocateur mémoire des données.
Definition arccore/src/common/arccore/common/MemoryUtils.cc:107

Arcane
-*- tab-width: 2; indent-tabs-mode: nil; coding: utf-8-with-signature -*-
Definition arcane/src/arcane/accelerator/AcceleratorGlobal.h:37

Arcane::Int64
std::int64_t Int64
Type entier signé sur 64 bits.
Definition ArccoreGlobal.h:227

Arcane::eMemoryResource
eMemoryResource
Liste des ressources mémoire disponibles.
Definition CommonGlobal.h:161

Arcane::eMemoryResource::HostPinned
@ HostPinned
Alloue sur l'hôte.
Definition CommonGlobal.h:167

Arcane::eMemoryResource::UnifiedMemory
@ UnifiedMemory
Alloue en utilisant la mémoire unifiée.
Definition CommonGlobal.h:171

Arcane::eMemoryResource::Device
@ Device
Alloue sur le device.
Definition CommonGlobal.h:169

Arcane::Int32
std::int32_t Int32
Type entier signé sur 32 bits.
Definition ArccoreGlobal.h:225

Arccore
Espace de nom de Arccore.
Definition CaseOptionList.cc:764