fix conv transpose dispatch into wrong kernel for forward path (#109)

XiaobingSuper · web-flow · commit 540c9c5bc9f3 · 2020-07-03T13:42:11.000+08:00
diff --git a/tests/cpu/test_bf16_lazy_reorder.py b/tests/cpu/test_bf16_lazy_reorder.py
@@ -62,6 +62,35 @@ def test_Conv2d_with_cpu(self):
                 self.assertTrue(ipex.core.is_bf16_dil_tensor(res_auto_bf16))
                 self.assertEqual(res_man_bf16.float(), res_auto_bf16.float(), 1e-2)
 
+class TestDeconv(TestCase):
+    def test_Deconv2d_with_cpu(self):
+        rand_seed = int(get_rand_seed())
+        print("{} rand sed: {}".format(sys._getframe().f_code.co_name, rand_seed))
+        torch.manual_seed(rand_seed)
+
+        _deconv = torch.nn.ConvTranspose2d(2, 3, (3, 3))
+
+        bn_man_bf16 =copy.deepcopy(_deconv).to(device=device).to(torch.bfloat16)
+        bn_auto_mix =copy.deepcopy(_deconv).to(device=device)
+
+        _in_cpu = torch.rand((1, 2, 7, 7))
+        in_auto_mix = _in_cpu.to(device=device)
+        in_man_bf16 = in_auto_mix.to(torch.bfloat16)
+
+        res_cpu_fp32 = _deconv(_in_cpu)
+
+        with AutoDNNL(True), AutoMixPrecision(False):
+            res_man_bf16 = bn_man_bf16(in_man_bf16)
+            self.assertEqual(res_man_bf16.dtype, torch.bfloat16)
+            self.assertEqual(res_cpu_fp32.bfloat16().float(), res_man_bf16, 1e-2)
+
+            with AutoMixPrecision(True):
+                self.assertEqual(in_auto_mix.dtype, torch.float)
+                self.assertFalse(ipex.core.is_bf16_dil_tensor(in_auto_mix))
+                res_auto_bf16 = bn_auto_mix(in_auto_mix)
+                self.assertTrue(ipex.core.is_bf16_dil_tensor(res_auto_bf16))
+                self.assertEqual(res_man_bf16.float(), res_auto_bf16.float(), 1e-2)
+
 class TestBatchNorm(TestCase):
     def test_batch_norm2d(self):
         rand_seed = int(get_rand_seed())
diff --git a/tests/cpu/test_lazy_reorder.py b/tests/cpu/test_lazy_reorder.py
@@ -105,6 +105,52 @@ def test_seq_conv(self):
         res_dpcpp = self._seq_conf(device, rand_seed)
         self.assertEqual(res_cpu, res_dpcpp.to('cpu'))
 
+class TestDeonv(TestCase):
+    def test_Deonv2d_with_cpu(self):
+        rand_seed = int(get_rand_seed())
+        print("{} rand sed: {}".format(sys._getframe().f_code.co_name, rand_seed))
+        torch.manual_seed(rand_seed)
+        deconv_cpu = torch.nn.ConvTranspose2d(2, 3, (3, 3))
+        deconv_dpcpp = torch.nn.ConvTranspose2d(2, 3, (3, 3)).to(device=device)
+
+        deconv_dpcpp.weight.data = deconv_cpu.weight.data.to(device=device)
+        deconv_dpcpp.bias.data = deconv_cpu.bias.data.to(device=device)
+
+        input_cpu = torch.rand((1, 2, 7, 7))
+        input_dpcpp = input_cpu.to(device=device)
+
+        ipex.core.enable_auto_dnnl()
+        out_dpcpp = deconv_dpcpp(input_dpcpp)
+
+        ipex.core.disable_auto_dnnl()
+        out_dpcpp_cpu = out_dpcpp.to('cpu')
+        out_cpu = deconv_cpu(input_cpu)
+        self.assertEqual(out_dpcpp.size(), out_cpu.size())
+        self.assertEqual(out_cpu, out_dpcpp_cpu)
+
+    def _seq_conf(self, device, rand_seed):
+        torch.manual_seed(rand_seed)
+        deconv_dpcpp1 = torch.nn.ConvTranspose2d(2, 3, (7, 7)).to(device=device)
+        deconv_dpcpp2 = torch.nn.ConvTranspose2d(3, 4, (5, 5)).to(device=device)
+        deconv_dpcpp3 = torch.nn.ConvTranspose2d(4, 5, (3, 3)).to(device=device)
+        input_cpu = torch.rand((1, 2, 10, 10))
+        input_dpcpp = input_cpu.to(device=device)
+
+        out_dpcpp1 = deconv_dpcpp1(input_dpcpp)
+        out_dpcpp2 = deconv_dpcpp2(out_dpcpp1)
+        out_dpcpp3 = deconv_dpcpp3(out_dpcpp2)
+        return out_dpcpp3
+
+    def test_seq_deconv(self):
+        ipex.core.disable_auto_dnnl()
+        rand_seed = int(get_rand_seed())
+        print("{} rand sed: {}".format(sys._getframe().f_code.co_name, rand_seed))
+        res_cpu = self._seq_conf('cpu', rand_seed)
+
+        ipex.core.enable_auto_dnnl()
+        res_dpcpp = self._seq_conf(device, rand_seed)
+        self.assertEqual(res_cpu, res_dpcpp.to('cpu'))
+
 class TestBinaryOp(TestCase):
     def test_add(self):
         ipex.core.enable_auto_dnnl()
diff --git a/torch_ipex/csrc/cpu/DevOPs.cpp b/torch_ipex/csrc/cpu/DevOPs.cpp
@@ -13,6 +13,7 @@
 #include "torch_ipex/csrc/utils.h"
 #include "dbl/Common.h"
 #include "dbl/Conv.h"
+#include "dbl/Deconv.h"
 #include "dbl/Pool.h"
 #include "dbl/DNNLChecker.h"
 #include "ShadeDataContext.h"
@@ -60,11 +61,11 @@ at::Tensor AtenIpexCPUDev::dil_convolution(
   }
 
   dbl::comm::reorder_to_bf16_for_mix_prec(weight);
-  dbl::conv::prepack_conv_weights(input, dil_input, 
+  dbl::conv::prepack_conv_weights(input, dil_input,
     weight, stride, padding, dilation, groups);
   dil_weight = dbl::comm::try_gen_dil_tensor(weight);
 
-  dil::tensor dil_output = dbl::conv::conv2d_impl(
+  dil::tensor dil_output = dbl::conv::convolution_impl(
     dil_input,
     dil_weight,
     dil_bias,
@@ -172,6 +173,53 @@ std::tuple<at::Tensor,at::Tensor,at::Tensor> AtenIpexCPUDev::dil_convolution_bac
   return std::make_tuple(grad_input, grad_weight, grad_bias);
 }
 
+at::Tensor AtenIpexCPUDev::dil_deconvolution(
+    const at::Tensor & input,
+    const at::Tensor & weight,
+    const at::Tensor & bias,
+    at::IntArrayRef padding,
+    at::IntArrayRef output_padding,
+    at::IntArrayRef stride,
+    at::IntArrayRef dilation,
+    int64_t groups) {
+  DEBUG("AtenIpexCPUDev::dil_deconvolution\n");
+  dil::tensor dil_input;
+  dil::tensor dil_weight;
+  c10::optional<dil::tensor> dil_bias{c10::nullopt};
+
+  CHECK_DNNL_OP_PRE_COND(input);
+  CHECK_DNNL_OP_PRE_COND(weight);
+
+  dbl::comm::reorder_to_bf16_for_mix_prec(input);
+  dil_input = dbl::comm::try_gen_dil_tensor(input);
+
+  if (bias.defined()) {
+    CHECK_DNNL_OP_PRE_COND(bias);
+    dbl::comm::reorder_to_bf16_for_mix_prec(bias);
+    dil_bias = dbl::comm::try_gen_dil_tensor(bias);
+  }
+
+  dbl::comm::reorder_to_bf16_for_mix_prec(weight);
+
+  // TODO
+  // dbl::deconv::prepack_deconv_weights(input, dil_input,
+  //   weight, stride, padding, dilation, groups);
+
+  dil_weight = dbl::comm::try_gen_dil_tensor(weight).transpose_(0, 1);
+
+  dil::tensor dil_output = dbl::deconv::deconvolution_impl(
+    dil_input,
+    dil_weight,
+    dil_bias,
+    padding,
+    output_padding,
+    stride,
+    dilation,
+    groups);
+
+  return dbl::comm::gen_aten_tensor_by(std::move(dil_output));
+}
+
 at::Tensor AtenIpexCPUDev::dil_convolution_overrideable(const at::Tensor & input, const at::Tensor & weight, const at::Tensor & bias, at::IntArrayRef stride, at::IntArrayRef padding, at::IntArrayRef dilation, bool transposed, at::IntArrayRef output_padding, int64_t groups) {
   DEBUG("AtenIpexCPUDev::convolution_overrideable\n");
 
@@ -184,7 +232,11 @@ at::Tensor AtenIpexCPUDev::dil_convolution_overrideable(const at::Tensor & input
         dnnl_input_tensors.push_back(bias);
       }
       if (dbl::chk::dnnl_support_the_tensors(dnnl_input_tensors))
-        return AtenIpexCPUDev::dil_convolution(input.is_contiguous() ? input : input.contiguous(), weight.is_contiguous() ? weight : weight.contiguous(), bias.defined() && !bias.is_contiguous() ? bias.contiguous() : bias, stride, padding, dilation, groups);
+        if (transposed) {
+          return AtenIpexCPUDev::dil_deconvolution(input.is_contiguous() ? input : input.contiguous(), weight.is_contiguous() ? weight : weight.contiguous(), bias.defined() && !bias.is_contiguous() ? bias.contiguous() : bias, padding, output_padding, stride, dilation, groups);
+        } else {
+          return AtenIpexCPUDev::dil_convolution(input.is_contiguous() ? input : input.contiguous(), weight.is_contiguous() ? weight : weight.contiguous(), bias.defined() && !bias.is_contiguous() ? bias.contiguous() : bias, stride, padding, dilation, groups);
+        }
     }
   } catch (std::exception& e) {
 #if defined(_DEBUG)
@@ -198,43 +250,34 @@ at::Tensor AtenIpexCPUDev::dil_convolution_overrideable(const at::Tensor & input
   auto&& _ipex_input = bridge::shallowFallbackToCPUTensor(input);
   auto&& _ipex_weight = bridge::shallowFallbackToCPUTensor(weight);
   auto&& _ipex_bias = bridge::shallowFallbackToCPUTensor(bias);
-  auto&& _ipex_result = at::mkldnn_convolution(_ipex_input, _ipex_weight, _ipex_bias, padding, stride, dilation, groups);
+  auto&& _ipex_result = at::convolution(_ipex_input, _ipex_weight, _ipex_bias, stride, padding, dilation, transposed, output_padding, groups);
   static_cast<void>(_ipex_result); // Avoid warnings in case not used
   return bridge::shallowUpgradeToDPCPPTensor(_ipex_result);
 }
 
-at::Tensor AtenIpexCPUDev::mkldnn_convolution(const at::Tensor & self, const at::Tensor & weight, const at::Tensor & bias, at::IntArrayRef padding, at::IntArrayRef stride, at::IntArrayRef dilation, int64_t groups) {
-  DEBUG("AtenIpexCPUDev::mkldnn_convolution\n");
-  TORCH_INTERNAL_ASSERT_DEBUG_ONLY(self.defined());
-  TORCH_INTERNAL_ASSERT_DEBUG_ONLY(weight.defined());
-  TORCH_INTERNAL_ASSERT_DEBUG_ONLY(self.layout() == c10::kStrided);
-  TORCH_INTERNAL_ASSERT_DEBUG_ONLY(weight.layout() == c10::kStrided);
-  TORCH_INTERNAL_ASSERT_DEBUG_ONLY(!(bias.defined()) || (bias.defined() && bias.layout() == c10::kStrided));
-  auto&& _ipex_self = bridge::shallowFallbackToCPUTensor(self);
-  auto&& _ipex_weight = bridge::shallowFallbackToCPUTensor(weight);
-  auto&& _ipex_bias = bridge::shallowFallbackToCPUTensor(bias);
-  auto&& _ipex_result = at::mkldnn_convolution(_ipex_self.contiguous(), _ipex_weight.contiguous(), _ipex_bias.contiguous(), padding, stride, dilation, groups);
-  static_cast<void>(_ipex_result); // Avoid warnings in case not used
-  TORCH_INTERNAL_ASSERT_DEBUG_ONLY(_ipex_result.is_contiguous());
-  TORCH_INTERNAL_ASSERT_DEBUG_ONLY(_ipex_result.layout() == c10::kStrided);
-  return bridge::shallowUpgradeToDPCPPTensor(_ipex_result);
-}
-
 std::tuple<at::Tensor,at::Tensor,at::Tensor> AtenIpexCPUDev::dil_convolution_backward_overrideable(const at::Tensor & grad_output, const at::Tensor & input, const at::Tensor & weight, at::IntArrayRef stride, at::IntArrayRef padding, at::IntArrayRef dilation, bool transposed, at::IntArrayRef output_padding, int64_t groups, std::array<bool,3> output_mask) {
   DEBUG("AtenIpexCPUDev::convolution_backward_overrideable\n");
   // NOTE: DO NOT always call contiguous. It may break lazy-reorder. Because contiguous will call reorder instantly.
   if (check_auto_dnnl()) {
-    return dil_convolution_backward(
-      input.is_contiguous() ? input : input.contiguous(),
-      grad_output.is_contiguous() ? grad_output : grad_output.contiguous(),
-      weight.is_contiguous() ? weight : weight.contiguous(),
-      padding,
-      stride,
-      dilation,
-      groups,
-      output_mask);
+    if (transposed) {
+      IPEX_CHECK(false, "deconvolution backward not support for dnnl path now");
+    } else {
+      return AtenIpexCPUDev::dil_convolution_backward(
+        input.is_contiguous() ? input : input.contiguous(),
+        grad_output.is_contiguous() ? grad_output : grad_output.contiguous(),
+        weight.is_contiguous() ? weight : weight.contiguous(),
+        padding,
+        stride,
+        dilation,
+        groups,
+        output_mask);
+    }
   } else {
-    return mkldnn_convolution_backward(input, grad_output, weight, padding, stride, dilation, groups, output_mask);
+    if (transposed) {
+      IPEX_CHECK(false, "deconvolution backward not support for native path now");
+    } else {
+      return AtenIpexCPUDev::mkldnn_convolution_backward(input, grad_output, weight, padding, stride, dilation, groups, output_mask);
+    }
   }
 }
 
diff --git a/torch_ipex/csrc/cpu/DevOPs.h b/torch_ipex/csrc/cpu/DevOPs.h
@@ -12,12 +12,13 @@ class AtenIpexCPUDev {
   static at::Tensor dil_convolution_overrideable(const at::Tensor & input, const at::Tensor & weight, const at::Tensor & bias, at::IntArrayRef stride, at::IntArrayRef padding, at::IntArrayRef dilation, bool transposed, at::IntArrayRef output_padding, int64_t groups);
   static std::tuple<at::Tensor,at::Tensor,at::Tensor> dil_convolution_backward_overrideable(const at::Tensor & grad_output, const at::Tensor & input, const at::Tensor & weight, at::IntArrayRef stride, at::IntArrayRef padding, at::IntArrayRef dilation, bool transposed, at::IntArrayRef output_padding, int64_t groups, std::array<bool,3> output_mask);
   // aten::mkldnn_convolution(Tensor self, Tensor weight, Tensor? bias, int[] padding, int[] stride, int[] dilation, int groups) -> Tensor
-  static at::Tensor mkldnn_convolution(const at::Tensor & self, const at::Tensor & weight, const at::Tensor & bias, at::IntArrayRef padding, at::IntArrayRef stride, at::IntArrayRef dilation, int64_t groups);
   static std::tuple<at::Tensor,at::Tensor,at::Tensor> mkldnn_convolution_backward(const at::Tensor & self, const at::Tensor & grad_output, const at::Tensor & weight, at::IntArrayRef padding, at::IntArrayRef stride, at::IntArrayRef dilation, int64_t groups, std::array<bool,3> output_mask);
 
   // For DNNL OPs
   static at::Tensor dil_convolution(const at::Tensor & input, const at::Tensor & weight, const at::Tensor & bias, at::IntArrayRef stride, at::IntArrayRef padding, at::IntArrayRef dilation, int64_t groups);
   static std::tuple<at::Tensor,at::Tensor,at::Tensor> dil_convolution_backward(const at::Tensor& input, const at::Tensor& grad_output_t, const at::Tensor& weight, at::IntArrayRef padding, at::IntArrayRef stride, at::IntArrayRef dilation, int64_t groups, std::array<bool,3> output_mask);
+  static at::Tensor dil_deconvolution(const at::Tensor& input, const at::Tensor& weight, const at::Tensor& bias, at::IntArrayRef padding, at::IntArrayRef ouput_padding, at::IntArrayRef stride, at::IntArrayRef dilation, int64_t groups);
+  // static std::tuple<at::Tensor,at::Tensor,at::Tensor> dil_deconvolution_backward(const at::Tensor& input, const at::Tensor& grad_output_t, const at::Tensor& weight, at::IntArrayRef padding, at::IntArrayRef stride, at::IntArrayRef dilation, int64_t groups, std::array<bool,3> output_mask);
   static at::Tensor& dil_add_out(at::Tensor& result, const at::Tensor& self, const at::Tensor& other, at::Scalar alpha);
   static at::Tensor dil_add(const at::Tensor& self, const at::Tensor& other, at::Scalar alpha);
   static at::Tensor & dil_add_(at::Tensor & self, const at::Tensor & other, at::Scalar alpha);
diff --git a/torch_ipex/csrc/cpu/FusionOPs.cpp b/torch_ipex/csrc/cpu/FusionOPs.cpp
@@ -52,7 +52,7 @@ at::Tensor AtenIpexJITDev::dil_convolution_relu(
     weight_contiguous, stride, padding, dilation, groups);
   dil_weight = try_gen_dil_tensor(weight_contiguous);
 
-  dil::tensor dil_output = dbl::conv::conv2d_impl(
+  dil::tensor dil_output = dbl::conv::convolution_impl(
     dil_input,
     dil_weight,
     dil_bias,
@@ -100,7 +100,7 @@ static at::Tensor& dil_convolution_inplace_fusion(
     weight_contiguous, stride, padding, dilation, groups);
   dil_weight = try_gen_dil_tensor(weight_contiguous);
 
-  dbl::conv::conv2d_inplace_impl(
+  dbl::conv::convolution_inplace_impl(
     dil_input,
     dil_weight,
     dil_bias,
diff --git a/torch_ipex/csrc/cpu/dbl/Conv.cpp b/torch_ipex/csrc/cpu/dbl/Conv.cpp
@@ -25,7 +25,7 @@ std::vector<int64_t> calc_conv_output_size(
   return output_size;
 }
 
-dil::tensor conv2d_impl(
+dil::tensor convolution_impl(
     const dil::tensor& x,
     const dil::tensor& w,
     const c10::optional<dil::tensor>& b,
@@ -87,7 +87,7 @@ dil::tensor conv2d_impl(
   return y;
 }
 
-void conv2d_inplace_impl(
+void convolution_inplace_impl(
     const dil::tensor& x,
     const dil::tensor& w,
     const c10::optional<dil::tensor>& b,
diff --git a/torch_ipex/csrc/cpu/dbl/Conv.h b/torch_ipex/csrc/cpu/dbl/Conv.h
@@ -18,7 +18,7 @@ std::vector<int64_t> calc_conv_output_size(
     at::IntArrayRef stride,
     at::IntArrayRef dilation);
 
-dil::tensor conv2d_impl(
+dil::tensor convolution_impl(
     const dil::tensor& x,
     const dil::tensor& w,
     const c10::optional<dil::tensor>& b,
@@ -28,7 +28,7 @@ dil::tensor conv2d_impl(
     int64_t groups,
     const dil::attr_t& attr = dil::attr_t());
 
-void conv2d_inplace_impl(
+void convolution_inplace_impl(
     const dil::tensor& x,
     const dil::tensor& w,
     const c10::optional<dil::tensor>& b,
diff --git a/torch_ipex/csrc/cpu/dbl/Deconv.cpp b/torch_ipex/csrc/cpu/dbl/Deconv.cpp
@@ -0,0 +1,81 @@
+#include "Deconv.h"
+
+#include "Common.h"
+#include "cpu/ShadeDataContext.h"
+
+namespace torch_ipex {
+namespace cpu {
+namespace dbl {
+namespace deconv {
+
+std::vector<int64_t> calc_deconv_input_size(
+    at::IntArrayRef output_size,
+    at::IntArrayRef kernel_size,
+    at::IntArrayRef padding,
+    at::IntArrayRef output_padding,
+    at::IntArrayRef stride,
+    at::IntArrayRef dilation,
+    int64_t groups) {
+  auto dim = output_size.size();
+  std::vector<int64_t> input_size(dim);
+  input_size[0] = output_size[0];
+  input_size[1] = kernel_size[1] * groups;
+  for (size_t d = 2; d < dim; ++d) {
+    auto kernel = dilation[d - 2] * (kernel_size[d] - 1) + 1;
+    input_size[d] = (output_size[d] - 1) * stride[d - 2] - (2 * padding[d - 2]) +
+                     kernel + output_padding[d - 2];
+  }
+  return input_size;
+}
+
+dil::tensor deconvolution_impl(
+    const dil::tensor& x,
+    const dil::tensor& w,
+    const c10::optional<dil::tensor>& b,
+    at::IntArrayRef padding,
+    at::IntArrayRef output_padding,
+    at::IntArrayRef stride,
+    at::IntArrayRef dilation,
+    int64_t groups,
+    const dil::attr_t& attr) {
+  const dil::dims x_dims = x.get_dims();
+  const dil::dims w_dims = w.get_dims();
+  std::vector<int64_t> input_size{x_dims.cbegin(), x_dims.cend()};
+  std::vector<int64_t> kernel_size{w_dims.cbegin(), w_dims.cend()};
+  std::swap(kernel_size[0], kernel_size[1]);
+  std::vector<int64_t> output_sizes = calc_deconv_input_size(input_size, kernel_size, padding, output_padding, stride, dilation, groups);
+
+  dil::tensor y;
+  if (b.has_value()) {
+    dil::convolution_transpose_forward::compute(
+      x,
+      w,
+      b.value(),
+      {output_sizes.cbegin(), output_sizes.cend()},
+      y,
+      {stride.begin(), stride.end()},
+      {padding.begin(), padding.end()},
+      {padding.begin(), padding.end()},
+      {dilation.begin(), dilation.end()}, 
+      groups,
+      attr);
+  } else {
+    dil::convolution_transpose_forward::compute(
+      x,
+      w,
+      {output_sizes.cbegin(), output_sizes.cend()},
+      y,
+      {stride.begin(), stride.end()},
+      {padding.begin(), padding.end()},
+      {padding.begin(), padding.end()},
+      {dilation.begin(), dilation.end()}, 
+      groups,
+      attr);
+  }
+  return y;
+}
+
+}  // namespace deconv
+}  // namespace dbl
+}  // namespace cpu
+}  // namespace torch_ipex
diff --git a/torch_ipex/csrc/cpu/dbl/Deconv.h b/torch_ipex/csrc/cpu/dbl/Deconv.h