intel
diff --git a/‎.github/scripts/env.sh
+2 b/‎.github/scripts/env.sh
+2
diff --git a/‎src/ATen/native/nested/xpu/NestedTensorTransformerFunctions.cpp
+1-1 b/‎src/ATen/native/nested/xpu/NestedTensorTransformerFunctions.cpp
+1-1
diff --git a/‎src/ATen/native/sparse/xpu/sycl/SparseCsrTensorMathKernels.cpp
-1 b/‎src/ATen/native/sparse/xpu/sycl/SparseCsrTensorMathKernels.cpp
-1
diff --git a/‎src/ATen/native/sparse/xpu/sycl/SparseSoftmaxKernels.cpp
+2-3 b/‎src/ATen/native/sparse/xpu/sycl/SparseSoftmaxKernels.cpp
+2-3
diff --git a/‎src/ATen/native/xpu/BatchNorm.cpp
+6-10 b/‎src/ATen/native/xpu/BatchNorm.cpp
+6-10
diff --git a/‎src/ATen/native/xpu/Copy.cpp
+4-4 b/‎src/ATen/native/xpu/Copy.cpp
+4-4
diff --git a/‎src/ATen/native/xpu/NMS.cpp
-2 b/‎src/ATen/native/xpu/NMS.cpp
-2
diff --git a/‎src/ATen/native/xpu/SoftMax.cpp
+17-2 b/‎src/ATen/native/xpu/SoftMax.cpp
+17-2
diff --git a/‎src/ATen/native/xpu/SpectralOps.cpp
+36 b/‎src/ATen/native/xpu/SpectralOps.cpp
+36
diff --git a/‎src/ATen/native/xpu/XPUFallback.template
-1 b/‎src/ATen/native/xpu/XPUFallback.template
-1
diff --git a/‎src/ATen/native/xpu/mkl/SpectralOps.cpp
+113 b/‎src/ATen/native/xpu/mkl/SpectralOps.cpp
+113
diff --git a/‎src/ATen/native/xpu/mkl/SpectralOps.h
+13 b/‎src/ATen/native/xpu/mkl/SpectralOps.h
+13
diff --git a/‎src/ATen/native/xpu/sycl/BatchNormKernels.cpp
+2-4 b/‎src/ATen/native/xpu/sycl/BatchNormKernels.cpp
+2-4
diff --git a/‎src/ATen/native/xpu/sycl/Dequant_int4.cpp
-1 b/‎src/ATen/native/xpu/sycl/Dequant_int4.cpp
-1
@@ -14,6 +14,8 @@ export PYTORCH_EXTRA_INSTALL_REQUIREMENTS="\
     impi-devel==2021.14.2 |\
     oneccl-devel==2021.14.1 |\
     mkl-devel==2025.0.1 |\
+    onemkl-sycl-blas==2025.0.1 |\
     onemkl-sycl-dft==2025.0.1 |\
+    onemkl-sycl-lapack==2025.0.1 |\
     tcmlib==1.2.0 | umf==0.9.1 | intel-pti==0.10.2 \
 "
@@ -54,7 +54,7 @@ Tensor nested_from_padded_xpu(
 
     Tensor metadata =
         at::cat({target_size_sizes, padded_sizes_tensor, target_offsets});
-    metadata = metadata.to(at::Device(kCUDA), kInt, true, true);
+    metadata = metadata.to(at::Device(kXPU), kInt, true, true);
 
     auto output_size_ptr = metadata.data_ptr<int>();
     auto input_size_ptr = output_size_ptr + target_size_sizes.numel();
 
@@ -248,7 +248,6 @@ Tensor reduce_sparse_csr_dim1_xpu_template(
   auto ioptions = crow_indices.options();
   Tensor values = sparse.values();
   auto nrows = sparse.size(0);
-  auto numel = values.numel();
 
   Tensor new_crow_indices = at::empty({crow_indices.numel()}, ioptions);
   Tensor new_col_indices = at::empty({}, ioptions);
 
@@ -380,7 +380,7 @@ Tensor get_offsets(
   }
   // auto strides = host_strides;
   auto strides = at::empty({ndim}, indices.options());
-  auto strides_ptr = strides.data_ptr<int64_t>();
+  // auto strides_ptr = strides.data_ptr<int64_t>();
 
   // syclMemcpyAsync(
   //     strides_ptr,
@@ -392,11 +392,10 @@ Tensor get_offsets(
     strides[kk] = host_strides[kk];
   }
 
-  auto indices_accessor = indices.packed_accessor64<int64_t, 2>();
+  // auto indices_accessor = indices.packed_accessor64<int64_t, 2>();
   Tensor offsets = at::ones({nnz}, indices.options());
 
   for (int i = 0; i < nnz; i++) {
-    int64_t pool_index = 0;
     for (int64_t j = 0; j < ndim; j++) {
       if (j != dim) {
         offsets[i] += (strides[j] * indices[j][i]);
 
@@ -240,7 +240,7 @@ std::tuple<Tensor, Tensor, Tensor, Tensor> _batch_norm_with_update_xpu(
   c10::MaybeOwned<Tensor> weight_maybe_owned =
       at::borrow_from_optional_tensor(weight_opt);
   const Tensor& weight = *weight_maybe_owned;
-  const Tensor& bias = c10::value_or_else(bias_opt, [] { return Tensor(); });
+  const Tensor& bias = bias_opt.value_or(Tensor());
   Tensor reserve;
 
   reserve = at::empty({0}, input.options().dtype(kByte));
@@ -284,7 +284,7 @@ std::tuple<Tensor&, Tensor&, Tensor&, Tensor&> _batch_norm_with_update_xpu_out(
   c10::MaybeOwned<Tensor> weight_maybe_owned =
       at::borrow_from_optional_tensor(weight_opt);
   const Tensor& weight = *weight_maybe_owned;
-  const Tensor& bias = c10::value_or_else(bias_opt, [] { return Tensor(); });
+  const Tensor& bias = bias_opt.value_or(Tensor());
 
   std::tie(out, save_mean, save_var) = xpu::batch_norm_kernel(
       input,
@@ -315,14 +315,10 @@ std::tuple<Tensor, Tensor, Tensor> _new_batch_norm_backward_xpu(
     double eps,
     std::array<bool, 3> grad_input_mask,
     const Tensor& reserve) {
-  const Tensor& running_mean =
-      c10::value_or_else(running_mean_opt, [] { return Tensor(); });
-  const Tensor& running_var =
-      c10::value_or_else(running_var_opt, [] { return Tensor(); });
-  const Tensor& save_mean =
-      c10::value_or_else(save_mean_opt, [] { return Tensor(); });
-  const Tensor& save_var =
-      c10::value_or_else(save_var_opt, [] { return Tensor(); });
+  const Tensor& running_mean = running_mean_opt.value_or(Tensor());
+  const Tensor& running_var = running_var_opt.value_or(Tensor());
+  const Tensor& save_mean = save_mean_opt.value_or(Tensor());
+  const Tensor& save_var = save_var_opt.value_or(Tensor());
   return xpu::batch_norm_backward_kernel(
       grad_output,
       input,
 
@@ -249,7 +249,7 @@ void _copy_xpu(TensorIterator& iter, bool non_blocking) {
     if (copy_kind == _H2D_) {
       if (at::detail::getXPUHooks().isPinnedPtr(src)) {
         q.memcpy(dst, src, nbytes);
-        at::xpu::CachingHostAllocator_recordEvent(
+        at::getHostAllocator(at::kXPU)->record_event(
             const_cast<void*>(src),
             iter.tensor(1).storage().data_ptr().get_context(),
             at::xpu::getCurrentXPUStream());
@@ -259,7 +259,7 @@ void _copy_xpu(TensorIterator& iter, bool non_blocking) {
         // by CPU tensor factory won't be cached in CPU allocator. When host
         // memory is freed with CPU tensor dtor at the end of train main loop,
         // but the corresponding H2D copy might not have been executed yet.
-        auto stage_mem_dptr = at::xpu::HostAlloc(nbytes);
+        auto stage_mem_dptr = at::getHostAllocator(at::kXPU)->allocate(nbytes);
         void* stage_mem = stage_mem_dptr.get();
         if (!stage_mem) {
           throw std::runtime_error(
@@ -268,15 +268,15 @@ void _copy_xpu(TensorIterator& iter, bool non_blocking) {
 
         std::memcpy(stage_mem, src, nbytes);
         q.memcpy(dst, stage_mem, nbytes);
-        at::xpu::CachingHostAllocator_recordEvent(
+        at::getHostAllocator(at::kXPU)->record_event(
             const_cast<void*>(stage_mem),
             stage_mem_dptr.get_context(),
             at::xpu::getCurrentXPUStream());
       }
     } else {
       q.memcpy(dst, src, nbytes);
       if (at::detail::getXPUHooks().isPinnedPtr(dst)) {
-        at::xpu::CachingHostAllocator_recordEvent(
+        at::getHostAllocator(at::kXPU)->record_event(
             const_cast<void*>(dst),
             iter.tensor(0).storage().data_ptr().get_context(),
             at::xpu::getCurrentXPUStream());
 
@@ -36,8 +36,6 @@ Tensor nms(const Tensor& dets, const Tensor& scores, double iou_threshold_) {
     return at::empty({0}, dets.options().dtype(at::kLong));
   }
 
-  constexpr int nms_items_per_group = sizeof(unsigned long long) * 8;
-
   auto order_t = std::get<1>(
       scores.sort(/*stable=*/true, /*dim=*/0, /* descending=*/true));
   auto dets_sorted = dets.index_select(0, order_t).contiguous();
 
@@ -38,8 +38,16 @@ TORCH_IMPL_FUNC(softmax_backward_xpu_out)
       "grad_output");
   c10::impl::check_and_update_common_device(
       common_device, output, "xpu::_softmax_backward_data_out_out", "output");
+  bool half_to_float = grad.scalar_type() != input_dtype;
+  if (half_to_float) {
+    TORCH_CHECK(
+        (grad.scalar_type() == ScalarType::Float &&
+         input_dtype == ScalarType::Half),
+        "expected input and grad types to match, or input to be at::Half and grad to be at::Float");
+  }
 
-  native::xpu::_softmax_backward_kernel(grad, output, dim, false, grad_input);
+  native::xpu::_softmax_backward_kernel(
+      grad, output, dim, half_to_float, grad_input);
 }
 
 TORCH_IMPL_FUNC(log_softmax_backward_xpu_out)
@@ -64,8 +72,15 @@ TORCH_IMPL_FUNC(log_softmax_backward_xpu_out)
       output,
       "xpu::_log_softmax_backward_data_out_out",
       "output");
+  bool half_to_float = grad.scalar_type() != input_dtype;
+  if (half_to_float) {
+    TORCH_CHECK(
+        (grad.scalar_type() == ScalarType::Float &&
+         input_dtype == ScalarType::Half),
+        "expected input and grad types to match, or input to be at::Half and grad to be at::Float");
+  }
   native::xpu::_log_softmax_backward_kernel(
-      grad, output, dim, false, grad_input);
+      grad, output, dim, half_to_float, grad_input);
 }
 
 TORCH_IMPL_FUNC(log_softmax_xpu_out)
 
@@ -4,6 +4,7 @@
 #include <ATen/native/Resize.h>
 #include <ATen/ops/_fft_c2c_native.h>
 #include <ATen/ops/_fft_c2r_native.h>
+#include <ATen/ops/_fft_r2c_native.h>
 #endif // USE_ONEMKL
 
 namespace at::native {
@@ -79,4 +80,39 @@ Tensor& _fft_c2r_xpu_out(
 #endif // USE_ONEMKL
 }
 
+Tensor _fft_r2c_xpu(
+    const Tensor& self,
+    IntArrayRef dim,
+    int64_t normalization,
+    bool onesided) {
+  TORCH_CHECK(self.is_floating_point());
+
+#if defined(USE_ONEMKL)
+  return native::xpu::_fft_r2c_mkl(self, dim, normalization, onesided);
+#else
+  Tensor out_cpu = native::_fft_r2c_mkl(
+      self.to(Device(at::kCPU)), dim, normalization, onesided);
+  return out_cpu.to(Device(at::kXPU));
+#endif // USE_ONEMKL
+}
+
+Tensor& _fft_r2c_xpu_out(
+    const Tensor& self,
+    IntArrayRef dim,
+    int64_t normalization,
+    bool onesided,
+    Tensor& out) {
+  TORCH_CHECK(self.is_floating_point());
+
+#if defined(USE_ONEMKL)
+  return native::xpu::_fft_r2c_mkl_out(self, dim, normalization, onesided, out);
+#else
+  Tensor out_cpu = native::_fft_r2c_mkl(
+      self.to(Device(at::kCPU)), dim, normalization, onesided);
+  at::native::resize_output(out, out_cpu.sizes());
+  out.copy_(out_cpu);
+  return out;
+#endif // USE_ONEMKL
+}
+
 } // namespace at::native
@@ -190,7 +190,6 @@ TORCH_LIBRARY_IMPL(aten, XPU, m) {
     "_cholesky_solve_helper",
     "dot",
     "_efficient_attention_forward",
-    "_fft_r2c",
     "_flash_attention_forward",
     "geqrf",
     "linalg_cholesky_ex.L",
 
@@ -2,6 +2,7 @@
 #include <ATen/native/Resize.h>
 #include <ATen/native/SpectralOpsUtils.h>
 #include <ATen/native/xpu/mkl/SpectralOps.h>
+#include <ATen/native/xpu/sycl/FFTKernelFunctor.h>
 #include <ATen/ops/complex.h>
 #include <ATen/ops/imag.h>
 #include <ATen/ops/mul.h>
@@ -52,6 +53,7 @@ void _mkl_dft(
 
   auto istrides = input.strides();
   auto ostrides = output.strides();
+
   int64_t idist = istrides[0];
   int64_t odist = ostrides[0];
 
@@ -477,5 +479,116 @@ Tensor& _fft_c2r_mkl_out(
       out, result, normalization, result.sizes(), dim);
 }
 
+REGISTER_XPU_DISPATCH(
+    fft_fill_with_conjugate_symmetry_stub,
+    &_fft_fill_with_conjugate_symmetry_xpu);
+
+Tensor _fft_r2c_mkl(
+    const Tensor& self,
+    IntArrayRef dim,
+    int64_t normalization,
+    bool onesided) {
+  if (dim.empty()) {
+    return self.clone();
+  }
+
+  auto input_sizes = self.sizes();
+  DimVector onesided_sizes(input_sizes.begin(), input_sizes.end());
+  auto last_dim = dim.back();
+  auto last_dim_halfsize = (input_sizes[last_dim]) / 2 + 1;
+  onesided_sizes[last_dim] = last_dim_halfsize;
+
+  IntArrayRef out_sizes = onesided ? onesided_sizes : input_sizes;
+
+  auto sorted_dims = impl::_sort_dims(self, dim, /*exclude_last=*/true);
+  auto out = at::empty(
+      out_sizes, self.options().dtype(c10::toComplexType(self.scalar_type())));
+
+  auto working_tensor = self.clone(MemoryFormat::Contiguous);
+
+  // First do the R2C transform on the last dimension
+  impl::_exec_fft(
+      out, working_tensor, out_sizes, last_dim, onesided, /*forward=*/true);
+
+  if (dim.size() > 1) {
+    working_tensor = at::empty(
+        out_sizes,
+        self.options().dtype(c10::toComplexType(self.scalar_type())));
+  }
+
+  sorted_dims.resize(sorted_dims.size() - 1);
+
+  while (!sorted_dims.empty()) {
+    if (working_tensor.is_same(self)) {
+      working_tensor = std::move(out);
+      out = at::empty(
+          out_sizes,
+          self.options().dtype(c10::toComplexType(self.scalar_type())));
+    } else {
+      std::swap(out, working_tensor);
+    }
+
+    const auto max_dims =
+        std::min(static_cast<size_t>(impl::mkl_max_ndim), sorted_dims.size());
+    auto fft_dims =
+        IntArrayRef(sorted_dims).slice(sorted_dims.size() - max_dims, max_dims);
+    impl::_exec_fft(
+        out,
+        working_tensor,
+        out_sizes,
+        fft_dims,
+        onesided,
+        /*forward=*/true);
+    sorted_dims.resize(sorted_dims.size() - max_dims);
+
+    if (sorted_dims.empty()) {
+      break;
+    }
+
+    sorted_dims = impl::_sort_dims(self, sorted_dims);
+  }
+
+  // Only need to normalize the onesided slice since data in the other half is
+  // overwritten
+  auto out_slice = out.slice(last_dim, 0, last_dim_halfsize);
+  working_tensor = self;
+  if (!onesided) {
+    if (out.sizes()[last_dim] != out_sizes[last_dim]) {
+      working_tensor.resize_(out_sizes, MemoryFormat::Contiguous);
+      working_tensor.slice(last_dim, 0, last_dim_halfsize).copy_(out);
+      out = std::move(working_tensor);
+    }
+    at::native::_fft_fill_with_conjugate_symmetry_(out, dim);
+  }
+
+  return impl::_fft_apply_normalization(out, normalization, input_sizes, dim);
+}
+
+Tensor& _fft_r2c_mkl_out(
+    const Tensor& self,
+    IntArrayRef dim,
+    int64_t normalization,
+    bool onesided,
+    Tensor& out) {
+  auto result = _fft_r2c_mkl(
+      self, dim, static_cast<int64_t>(fft_norm_mode::none), /*onesided=*/true);
+
+  if (onesided) {
+    return impl::_fft_apply_normalization_out(
+        out, result, normalization, self.sizes(), dim);
+  }
+
+  at::native::resize_output(out, self.sizes());
+
+  auto last_dim = dim.back();
+  auto last_dim_halfsize = result.sizes()[last_dim];
+  auto out_slice = out.slice(last_dim, 0, last_dim_halfsize);
+
+  impl::_fft_apply_normalization_out(
+      out_slice, result, normalization, self.sizes(), dim);
+  at::native::_fft_fill_with_conjugate_symmetry_(out, dim);
+  return out;
+}
+
 } // namespace at::native::xpu
 #endif // USE_ONEMKL
@@ -30,4 +30,17 @@ TORCH_XPU_API Tensor& _fft_c2r_mkl_out(
     int64_t last_dim_size,
     Tensor& out);
 
+TORCH_XPU_API Tensor _fft_r2c_mkl(
+    const Tensor& self,
+    IntArrayRef dim,
+    int64_t normalization,
+    bool onesided);
+
+TORCH_XPU_API Tensor& _fft_r2c_mkl_out(
+    const Tensor& self,
+    IntArrayRef dim,
+    int64_t normalization,
+    bool onesided,
+    Tensor& out);
+
 } // namespace at::native::xpu
@@ -5416,8 +5416,7 @@ std::tuple<Tensor, Tensor> batch_norm_gather_stats_with_counts_kernel(
   c10::MaybeOwned<Tensor> running_mean_maybe_owned =
       at::borrow_from_optional_tensor(running_mean_opt);
   const Tensor& running_mean = *running_mean_maybe_owned;
-  const Tensor& running_var =
-      c10::value_or_else(running_var_opt, [] { return Tensor(); });
+  const Tensor& running_var = running_var_opt.value_or(Tensor());
 
   auto scalar_type =
       running_mean.defined() ? running_mean.scalar_type() : self.scalar_type();
@@ -5471,8 +5470,7 @@ std::tuple<Tensor, Tensor> batch_norm_gather_stats_kernel(
   c10::MaybeOwned<Tensor> running_mean_maybe_owned =
       at::borrow_from_optional_tensor(running_mean_opt);
   const Tensor& running_mean = *running_mean_maybe_owned;
-  const Tensor& running_var =
-      c10::value_or_else(running_var_opt, [] { return Tensor(); });
+  const Tensor& running_var = running_var_opt.value_or(Tensor());
 
   std::vector<int64_t> counts(mean.size(0), count);
   Tensor counts_ = at::from_blob(
 
@@ -30,7 +30,6 @@ struct DequantInt4KernelFunctor : public __SYCL_KER_CONFIG_CONVENTION__ {
     static_assert(TileN == SgSize);
     static_assert(TileK == 1);
     int nsg_k = k / GroupK;
-    int nsg_n = n / GroupN;
 
     int g_idx = it.get_group(0);
     auto sg = it.get_sub_group();
Original file line number	Diff line number	Diff line change
`@@ -14,6 +14,8 @@ export PYTORCH_EXTRA_INSTALL_REQUIREMENTS="\`
`14`	`14`	`impi-devel==2021.14.2 \|\`
`15`	`15`	`oneccl-devel==2021.14.1 \|\`
`16`	`16`	`mkl-devel==2025.0.1 \|\`
	`17`	`+ onemkl-sycl-blas==2025.0.1 \|\`
`17`	`18`	`onemkl-sycl-dft==2025.0.1 \|\`
	`19`	`+ onemkl-sycl-lapack==2025.0.1 \|\`
`18`	`20`	`tcmlib==1.2.0 \| umf==0.9.1 \| intel-pti==0.10.2 \`
`19`	`21`	`"`
Original file line number	Diff line number	Diff line change
`@@ -36,8 +36,6 @@ Tensor nms(const Tensor& dets, const Tensor& scores, double iou_threshold_) {`
`36`	`36`	`return at::empty({0}, dets.options().dtype(at::kLong));`
`37`	`37`	`}`
`38`	`38`
`39`		`- constexpr int nms_items_per_group = sizeof(unsigned long long) * 8;`
`40`		`-`
`41`	`39`	`auto order_t = std::get<1>(`
`42`	`40`	`scores.sort(/stable=/true, /dim=/0, /* descending=*/true));`
`43`	`41`	`auto dets_sorted = dets.index_select(0, order_t).contiguous();`