DPCT1085#

メッセージ#

関数 <function name> は sub-group サイズが <size> である必要がありますが、同じ SYCL* カーネル内のほかの sub-group 関数では異なる sub-group サイズが必要です。ソースコードの調整が必要な場合があります。

詳細な説明#

各カーネルは、1 つの sub-group サイズでしか修飾できません。この警告は、カーネルが異なる sub-group サイズを必要とする場合に出力されます。sub-group サイズを 1 つの値に統一できるかどうかを確認し、統一できない場合はコードのロジックを再設計します。

例えば、以下のオリジナル CUDA* コードについて考えてみます。

   __global__ void kernel(int* data1, int* data2) { 
     typedef cub::WarpScan<int> WarpScan; 
     typedef cub::WarpScan<int, 16> WarpScan16; 
 
     typename WarpScan::TempStorage temp1; 
     typename WarpScan16::TempStorage temp2; 
 
     int input = data1[threadIdx.x]; 
     int output1 = 0; 
    int output2 = 0; 
    WarpScan(temp1).InclusiveSum(input, output1); 
    data1[threadIdx.x] = output1; 
    WarpScan16(temp2).InclusiveSum(input, output2); 
    data2[threadIdx.x] = output1; 
  } 
 
  void foo(int* data1, int* data2) { 
    kernel<<<1, 32>>>(data1, data2); 
  }

このコードは、以下の SYCL* コードに移行されます。

   void kernel(int* data1, int* data2, const sycl::nd_item<3> &item_ct1) { 
 
     int input = data1[item_ct1.get_local_id(2)]; 
     int output1 = 0; 
     int output2 = 0; 
     output1 = sycl::inclusive_scan_over_group(item_ct1.get_sub_group(), input, 
     sycl::plus<>()); 
     data1[item_ct1.get_local_id(2)] = output1; 
   /* 
  DPCT1085:0: The function inclusive_scan_over_group requires sub-group size to 
  be 16, while other sub-group functions in the same SYCL kernel require a 
  different sub-group size. You may need to adjust the code.   */ 
    output2 = sycl::inclusive_scan_over_group(item_ct1.get_sub_group(), input, 
    sycl::plus<>()); 
    data2[item_ct1.get_local_id(2)] = output1; 
  } 
 
  void foo(int* data1, int* data2) { 
    dpct::get_in_order_queue().parallel_for( 
      sycl::nd_range<3>(sycl::range<3>(1, 1, 32), sycl::range<3>(1, 1, 32)), 
      [=](sycl::nd_item<3> item_ct1) [[intel::reqd_sub_group_size(32)]] { 
      kernel(data1, data2, item_ct1); 
    }); 
  } 
 
  void foo(int* data) { 
    dpct::get_in_order_queue().parallel_for( 
      sycl::nd_range<3>(sycl::range<3>(1, 1, 32), sycl::range<3>(1, 1, 32)), 
      [=](sycl::nd_item<3> item_ct1) [[intel::reqd_sub_group_size(32)]] { 
      kernel(data, item_ct1);
    }); 
  }

このコードを以下のように手動で調整します。

   void kernel(int* data1, int* data2, const sycl::nd_item<3> &item_ct1) { 
 
     int input = data1[item_ct1.get_local_id(2)]; 
     int output1 = 0; 
     int output2 = 0; 
     output1 = sycl::inclusive_scan_over_group(item_ct1.get_sub_group(), input, 
     sycl::plus<>()); 
     data1[item_ct1.get_local_id(2)] = output1; 
     output2 = sycl::inclusive_scan_over_group(item_ct1.get_sub_group(), input, 
    sycl::plus<>()); 
    data2[item_ct1.get_local_id(2)] = output1; 
    item_ct1.barrier(); 
    if (item_ct1.get_local_id(2) % 32 >= 16) { 
      int warp_id = item_ct1.get_local_id(2) / 32; 
      data2[item_ct1.get_local_id(2)] -= data2[warp_id * 32 + 15]; 
    } 
  } 
 
  void foo(int* data1, int* data2) { 
    dpct::get_in_order_queue().parallel_for( 
      sycl::nd_range<3>(sycl::range<3>(1, 1, 32), sycl::range<3>(1, 1, 32)), 
      [=](sycl::nd_item<3> item_ct1) [[intel::reqd_sub_group_size(32)]] { 
      kernel(data1, data2, item_ct1); 
    }); 
  }

修正方法の提案#

コードを手動で修正する必要があります。このコードを手動で書き換えてください。

インテル® DPC++
互換性ツール・
デベロッパー・ガイド
およびリファレンス

DPCT1085

目次

DPCT1085#

メッセージ#

詳細な説明#

修正方法の提案#

インテル® DPC++互換性ツール・デベロッパー・ガイドおよびリファレンス

DPCT1085

目次

DPCT1085#

メッセージ#

詳細な説明#

修正方法の提案#

インテル® DPC++
互換性ツール・
デベロッパー・ガイド
およびリファレンス