formatting

dianaml0 · dianaml0 · commit 9aa46d2bb618 · 2023-01-18T09:53:48.000-08:00
diff --git a/metaseq/model_parallel/modules/sequence_parallel_transformer_layer.py b/metaseq/model_parallel/modules/sequence_parallel_transformer_layer.py
@@ -195,7 +195,7 @@ def forward(
                     op=xf_op[0],
                 )
                 .transpose(0, 1)
-                .reshape(seq_len, bsz, num_heads*head_dim)
+                .reshape(seq_len, bsz, num_heads * head_dim)
             )
             # TODO: Reshape q/k/v back to original?
         else:
@@ -413,7 +413,11 @@ def backward(ctx, grad_output):
                 op=xf_op[0],
             )
             out = attn
-            attn = attn.transpose(0, 1).reshape(seq_len, bsz, num_heads*head_dim).contiguous()
+            attn = (
+                attn.transpose(0, 1)
+                .reshape(seq_len, bsz, num_heads * head_dim)
+                .contiguous()
+            )
         else:
             attn, attn_probs = SequeuceParallelTransformerBlock.forward_mha(
                 q, k, v, bsz, seq_len, head_dim, embed_dim_per_partition, dtype