DPCT1020#

メッセージ#

<api name> の移行が __global__ または __device__ 関数から呼び出される場合、サポートされません。代わりにホスト側の <api name> を使うようにコードを再設計する必要があります。この場合、SYCL* キューにこの呼び出しが自動的に送信されます。

詳細な説明#

この警告は、<api name> が SYCL* カーネルをコマンドキューに送信し、<api-name> の呼び出し元がコマンドキューに送信された SYCL* カーネルの場合に生成されます。これにより、デバイス側でカーネルをエンキューすることになりますが、これは SYCL* 1.2.2020 ではサポートされていません。

修正方法の提案#

ホスト側の API を使うようにコードを再設計します。そうすることで、SYCL* キューにこの呼び出しが自動的に送信されます。

例えば、以下のオリジナル CUDA* コードについて考えてみます。

  __global__ void kernel(float *d_data) { 
   int tid = threadIdx.x; 
   d_data[tid + 1] = tid; 
 
   __syncthreads(); 
 
   if (tid == 0) { 
     cublasHandle_t handle; 
     cublasCreate(&handle); 
    cublasSasum(handle, 128, d_data + 1, 1, d_data) 
    cublasDestroy(handle); 
  } 
 } 
 
 void foo() { 
  float *d_data; 
  cudaMalloc((void **)&d_data, sizeof(float) * (1 + 128)); 
  kernel<<<1, 128>>>(d_data); 
 
  float data; 
  cudaMemcpy(data, d_data, sizeof(float), cudaMemcpyDeviceToHost); 
  cudaFree(d_data); 
 }

このコードは、以下の SYCL* コードに移行されます。

  void kernel(float *d_data, sycl::nd_item<3> item_ct1) { 
   int tid = item_ct1.get_local_id(2); 
   d_data[tid + 1] = tid; 
 
   item_ct1.barrier(); 
 
   if (tid == 0) { 
   /* 
   DPCT1021:2: Migration of cublasHandle_t in __global__ or __device__ function 
  is not supported.You may need to redesign the code.
  */ 
    cublasHandle_t handle; 
    handle = &dpct::get_default_queue(); 
  /* 
  DPCT1020:1: Migration of cublasSasum, if it is called from __global__ or 
  __device__ function, is not supported.You may need to redesign the code to 
  use the host-side oneapi::mkl::blas::column_major::asum instead, which submits 
  this call to the SYCL queue automatically.
  */ 
    cublasSasum(handle, 128, d_data + 1, 1, d_data); 
    handle = nullptr; 
  } 
 } 
 
 void foo() { 
  dpct::device_ext &dev_ct1 = dpct::get_current_device(); 
  sycl::queue &q_ct1 = dev_ct1.default_queue(); 
  float *d_data; 
  d_data = sycl::malloc_device<float>((1 + 128), q_ct1); 
  q_ct1.parallel_for( 
    sycl::nd_range<3>(sycl::range<3>(1, 1, 128), sycl::range<3>(1, 1, 128)), 
    [=](sycl::nd_item<3> item_ct1) { 
    kernel(d_data, item_ct1); 
  }); 
 
  float data; 
  q_ct1.memcpy(&data, d_data, sizeof(float)).wait(); 
  sycl::free(d_data, q_ct1); 
 }

このコードは次のように書き換えられます。

  void kernel(float *d_data, sycl::nd_item<3> item_ct1) { 
   int tid = item_ct1.get_local_id(2); 
   d_data[tid + 1] = tid; 
  } 
 
  void foo() { 
   dpct::device_ext &dev_ct1 = dpct::get_current_device(); 
   sycl::queue &q_ct1 = dev_ct1.default_queue(); 
   float *d_data; 
  d_data = sycl::malloc_device<float>((1 + 128), q_ct1); 
  q_ct1.parallel_for( 
    sycl::nd_range<3>(sycl::range<3>(1, 1, 128), sycl::range<3>(1, 1, 128)), 
    [=](sycl::nd_item<3> item_ct1) { 
    kernel(d_data, item_ct1); 
  }); 
  oneapi::mkl::blas::column_major::asum(q_ct1, 128, d_data + 1, 1, d_data); 
 
  float data; 
  q_ct1.memcpy(&data, d_data, sizeof(float)).wait(); 
  sycl::free(d_data, q_ct1); 
 }

インテル® DPC++
互換性ツール・
デベロッパー・ガイド
およびリファレンス

DPCT1020

目次

DPCT1020#

メッセージ#

詳細な説明#

修正方法の提案#

インテル® DPC++互換性ツール・デベロッパー・ガイドおよびリファレンス

DPCT1020

目次

DPCT1020#

メッセージ#

詳細な説明#

修正方法の提案#

インテル® DPC++
互換性ツール・
デベロッパー・ガイド
およびリファレンス