pulp-platform · Xeratec · Sep 18, 2025 · Sep 18, 2025 · Sep 18, 2025 · Sep 18, 2025
@@ -7,22 +7,20 @@
 from Deeploy.DeeployTypes import CodeGenVerbosity, CodeTransformationPass, ExecutionBlock, NetworkContext, _NoVerbosity
 from Deeploy.TilingExtension.AsyncDma import AsyncDma
 from Deeploy.TilingExtension.CodeTransformationPasses.DoubleBufferingTilingCodeGeneration import \
-    DoubleBufferingTilingCodeGeneration
+    DoubleBufferingTilingCodeGeneration, ProfilingDoubleBufferingTilingMixIn
 from Deeploy.TilingExtension.CodeTransformationPasses.SingleBufferingTilingCodeGeneration import \
-    SingleBufferingTilingCodeGeneration
-from Deeploy.TilingExtension.CodeTransformationPasses.TilingPrototypes import DoubleBufferingTilingMixIn, \
-    ProfilingDoubleBufferingTilingMixIn, ProfilingSingleBufferingTilingMixIn, SingleBufferingTilingMixIn
+    ProfilingSingleBufferingTilingMixIn, SingleBufferingTilingCodeGeneration
 
 
-class PULPClusterTilingGenerationSB(SingleBufferingTilingCodeGeneration, SingleBufferingTilingMixIn):
+class PULPClusterTilingGenerationSB(SingleBufferingTilingCodeGeneration):
     pass
 
 
 class ProfilingPULPClusterTilingGenerationSB(SingleBufferingTilingCodeGeneration, ProfilingSingleBufferingTilingMixIn):
     pass
 
 
-class PULPClusterTilingGenerationDB(DoubleBufferingTilingCodeGeneration, DoubleBufferingTilingMixIn):
+class PULPClusterTilingGenerationDB(DoubleBufferingTilingCodeGeneration):
     pass
 
 

@@ -7,22 +7,20 @@
 from Deeploy.DeeployTypes import CodeGenVerbosity, CodeTransformationPass, ExecutionBlock, NetworkContext, _NoVerbosity
 from Deeploy.TilingExtension.AsyncDma import AsyncDma
 from Deeploy.TilingExtension.CodeTransformationPasses.DoubleBufferingTilingCodeGeneration import \
-    DoubleBufferingTilingCodeGeneration
+    DoubleBufferingTilingCodeGeneration, ProfilingDoubleBufferingTilingMixIn
 from Deeploy.TilingExtension.CodeTransformationPasses.SingleBufferingTilingCodeGeneration import \
-    SingleBufferingTilingCodeGeneration
-from Deeploy.TilingExtension.CodeTransformationPasses.TilingPrototypes import DoubleBufferingTilingMixIn, \
-    ProfilingDoubleBufferingTilingMixIn, ProfilingSingleBufferingTilingMixIn, SingleBufferingTilingMixIn
+    ProfilingSingleBufferingTilingMixIn, SingleBufferingTilingCodeGeneration
 
 
-class PULPL3TilingGenerationSB(SingleBufferingTilingCodeGeneration, SingleBufferingTilingMixIn):
+class PULPL3TilingGenerationSB(SingleBufferingTilingCodeGeneration):
     pass
 
 
 class ProfilingPULPL3TilingGenerationSB(SingleBufferingTilingCodeGeneration, ProfilingSingleBufferingTilingMixIn):
     pass
 
 
-class PULPL3TilingGenerationDB(DoubleBufferingTilingCodeGeneration, DoubleBufferingTilingMixIn):
+class PULPL3TilingGenerationDB(DoubleBufferingTilingCodeGeneration):
     pass
 
 

@@ -12,9 +12,16 @@
 
 class L3DmaFuture(Future):
 
-    _initTemplate = NodeTemplate("pi_cl_ram_req_t ${name};")
+    _initTemplate = NodeTemplate("pi_cl_ram_req_t ${name} = {0};")
+
     _deinitTemplate = NodeTemplate("")
-    _waitTemplate = NodeTemplate("pi_cl_ram_copy_wait(&${name});")
+
+    _allocTemplate = NodeTemplate("")
+
+    _waitTemplate = NodeTemplate("""
+    if (${name}.size != 0) {
+        pi_cl_ram_copy_wait(&${name});
+    }""")
 
 
 class L3Dma(AsyncDma):

@@ -6,14 +6,18 @@
 from typing import Dict, Tuple
 
 from Deeploy.DeeployTypes import NetworkContext, NodeTemplate, OperatorRepresentation, VariableBuffer
-from Deeploy.TilingExtension.AsyncDma import AsyncDma, DmaDirection, Future, TensorGroupWaitingStrategy
+from Deeploy.TilingExtension.AsyncDma import AsyncDma, DirectionWaitingStrategy, DmaDirection, Future
 
 
 class MchanChannelFuture(Future):
 
-    _initTemplate = NodeTemplate("uint32_t ${name} = mchan_channel_alloc();")
-    _deinitTemplate = NodeTemplate("mchan_channel_free(${name});")
-    _waitTemplate = NodeTemplate("mchan_channel_wait(${name});")
+    _initTemplate = NodeTemplate("uint32_t ${name} = (uint32_t) -1;")
+
+    _deinitTemplate = NodeTemplate("")
+
+    _allocTemplate = NodeTemplate("${name} = mchan_channel_alloc();")
+
+    _waitTemplate = NodeTemplate("mchan_channel_wait(${name});\nmchan_channel_free(${name});")
 
 
 class MchanDma(AsyncDma):
@@ -22,7 +26,7 @@ class MchanDma(AsyncDma):
         1: NodeTemplate("mchan_transfer_1d(${cmd}, ${loc}, ${ext});"),
         2: NodeTemplate("mchan_transfer_2d_ext_strided(${cmd}, ${loc}, ${ext}, ${size_1d}, ${stride_2d});"),
     }
-    _waitingStrategy = TensorGroupWaitingStrategy(MchanChannelFuture, "channel_id")
+    _waitingStrategy = DirectionWaitingStrategy(MchanChannelFuture, "channel")
 
     def __init__(self, transferTemplates: Dict[int, NodeTemplate] = _transferTemplates) -> None:
         super().__init__(transferTemplates)

@@ -14,7 +14,7 @@
 from Deeploy.Targets.Generic.Templates import iNoNormTemplate
 from Deeploy.Targets.Generic.TypeCheckers import AddChecker, GEMMChecker, RQAddChecker, SoftmaxChecker, iNoNormChecker
 from Deeploy.Targets.Snitch.CodeTransformationPasses import SnitchClusterTiling, SnitchCoreFilterPass, \
-    SnitchProfileExecutionBlockPass, SnitchSynchCoresPass
+    SnitchSynchCoresPass
 from Deeploy.Targets.Snitch.DMA.SnitchDma import SnitchDma
 from Deeploy.Targets.Snitch.Templates import AddTemplate, FloatGemmTemplate, RQAddTemplate, iSoftmaxTemplate
 from Deeploy.Targets.Snitch.Templates.FloatSoftmaxTemplate import FloatSoftmax_Template
@@ -37,7 +37,6 @@
 
 TiledTransformer = CodeTransformation([
     SnitchCoreFilterPass("compute"),
-    SnitchProfileExecutionBlockPass(),
     TilingVariableReplacement("L1"),
     TilingCallClosure(writeback = False),
     SnitchSynchCoresPass(),

@@ -4,38 +4,55 @@
 
 from typing import Tuple
 
-from Deeploy.DeeployTypes import CodeGenVerbosity, CodeTransformationPass, ExecutionBlock, NetworkContext, _NoVerbosity
+from Deeploy.DeeployTypes import CodeGenVerbosity, CodeTransformationPass, ExecutionBlock, NetworkContext, \
+    NodeTemplate, _NoVerbosity
 from Deeploy.TilingExtension.AsyncDma import AsyncDma
 from Deeploy.TilingExtension.CodeTransformationPasses.DoubleBufferingTilingCodeGeneration import \
-    DoubleBufferingTilingCodeGeneration
+    DoubleBufferingTilingCodeGeneration, ProfilingDoubleBufferingTilingMixIn
 from Deeploy.TilingExtension.CodeTransformationPasses.SingleBufferingTilingCodeGeneration import \
-    SingleBufferingTilingCodeGeneration
-from Deeploy.TilingExtension.CodeTransformationPasses.TilingPrototypes import DoubleBufferingTilingMixIn, \
-    SingleBufferingTilingMixIn
+    ProfilingSingleBufferingTilingMixIn, SingleBufferingTilingCodeGeneration
 
 
-class SnitchClusterTilingSB(SingleBufferingTilingCodeGeneration, SingleBufferingTilingMixIn):
+class SnitchClusterTilingSB(SingleBufferingTilingCodeGeneration):
     pass
 
 
-class SnitchClusterTilingDB(DoubleBufferingTilingCodeGeneration, DoubleBufferingTilingMixIn):
+class SnitchClusterTilingDB(DoubleBufferingTilingCodeGeneration):
     pass
 
 
+class ProfilingSnitchClusterTilingSB(SingleBufferingTilingCodeGeneration, ProfilingSingleBufferingTilingMixIn):
+    _printCycleDifference = NodeTemplate(r"""
+    printf("%s%u][Core %d] %s%u%s", ${prefixStr}, ${profileIdxVar}, snrt_global_core_idx(), "${flavorStr}", \
+    ${measurementsEnd}[${profileIdxVar}] - ${measurementsStart}[${profileIdxVar}], ${suffixStr});
+    """)
+
+
+class ProfilingSnitchClusterTilingDB(DoubleBufferingTilingCodeGeneration, ProfilingDoubleBufferingTilingMixIn):
+    _printCycleDifference = NodeTemplate(r"""
+    printf("%s%u][Core %d] %s%u%s", ${prefixStr}, ${profileIdxVar}, snrt_global_core_idx(), "${flavorStr}", \
+    ${measurementsEnd}[${profileIdxVar}] - ${measurementsStart}[${profileIdxVar}], ${suffixStr});
+    """)
+
+
 class SnitchClusterTiling(CodeTransformationPass):
 
     def __init__(self, externalMemory: str, localMemory: str, dma: AsyncDma):
         self.SB = SnitchClusterTilingSB(externalMemory, localMemory, dma)
+        self.profilingSB = ProfilingSnitchClusterTilingSB(externalMemory, localMemory, dma)
+
         self.DB = SnitchClusterTilingDB(externalMemory, localMemory, dma)
+        self.profilingDB = ProfilingSnitchClusterTilingDB(externalMemory, localMemory, dma)
 
     def apply(self,
               ctxt: NetworkContext,
               executionBlock: ExecutionBlock,
               name: str,
               verbose: CodeGenVerbosity = _NoVerbosity) -> Tuple[NetworkContext, ExecutionBlock]:
         if verbose.tilingProfiling:
-            raise NotImplementedError("Profiling not implemented for L2")
-
-        ctxt, executionBlock = self.SB.apply(ctxt, executionBlock, name)
-        ctxt, executionBlock = self.DB.apply(ctxt, executionBlock, name)
+            ctxt, executionBlock = self.profilingSB.apply(ctxt, executionBlock, name)
+            ctxt, executionBlock = self.profilingDB.apply(ctxt, executionBlock, name)
+        else:
+            ctxt, executionBlock = self.SB.apply(ctxt, executionBlock, name)
+            ctxt, executionBlock = self.DB.apply(ctxt, executionBlock, name)
         return ctxt, executionBlock
@@ -5,31 +5,41 @@
 from typing import Dict, Tuple
 
 from Deeploy.DeeployTypes import NetworkContext, NodeTemplate, OperatorRepresentation, VariableBuffer
-from Deeploy.TilingExtension.AsyncDma import AsyncDma, DmaDirection, Future, TensorGroupWaitingStrategy
+from Deeploy.TilingExtension.AsyncDma import AsyncDma, DmaDirection, Future, PerTensorWaitingStrategy
 
 
 class SnitchBarrierFuture(Future):
     _initTemplate = NodeTemplate("")
     _deinitTemplate = NodeTemplate("")
+    _allocTemplate = NodeTemplate("")
     _waitTemplate = NodeTemplate("if (snrt_is_dm_core()) snrt_dma_wait_all();")
 
 
 # LMACAN: TODO: Add single transfer waiting
 class SnitchFuture(Future):
-    _initTemplate = NodeTemplate("uint16_t ${name};")
+    _initTemplate = NodeTemplate("snrt_dma_txid_t ${name} = (snrt_dma_txid_t) -1;")
+
     _deinitTemplate = NodeTemplate("")
-    _waitTemplate = NodeTemplate("if (snrt_is_dm_core()) snrt_dma_wait(${name});")
+
+    _allocTemplate = NodeTemplate("")
+
+    _waitTemplate = NodeTemplate(
+        "if ( (${name} != ( (snrt_dma_txid_t) -1) ) && snrt_is_dm_core() ) snrt_dma_wait(${name});")
 
 
 class SnitchDma(AsyncDma):
 
     _transferTemplates = {
         2:
-            NodeTemplate(
-                "if (snrt_is_dm_core()) snrt_dma_start_2d(${dest}, ${src}, ${size}, ${stride_dest}, ${stride_src}, ${repeat});"
-            ),
+            NodeTemplate("""
+            if (snrt_is_dm_core()) {
+                ${future} = snrt_dma_start_2d(${dest}, ${src}, ${size}, ${stride_dest}, ${stride_src}, ${repeat});
+                // WIESEP: Hack as otherwise the last commited DMA transaction ID can never be resolved.
+                snrt_dma_start_2d(${dest}, ${dest}, 1, 0, 0, 0);
+            }
+            """),
     }
-    _waitingStrategy = TensorGroupWaitingStrategy(SnitchBarrierFuture, "")
+    _waitingStrategy = PerTensorWaitingStrategy(SnitchFuture)
 
-    _transferTemplates = {
-        2:
-            NodeTemplate(
-                "if (snrt_is_dm_core()) snrt_dma_start_2d(${dest}, ${src}, ${size}, ${stride_dest}, ${stride_src}, ${repeat});"
-            ),
-            NodeTemplate("""
-            if (snrt_is_dm_core()) {
-                ${future} = snrt_dma_start_2d(${dest}, ${src}, ${size}, ${stride_dest}, ${stride_src}, ${repeat});
-                // WIESEP: Hack as otherwise the last commited DMA transaction ID can never be resolved.
-                snrt_dma_start_2d(${dest}, ${dest}, 1, 0, 0, 0);
-            }
-            """),
-    }
-    _waitingStrategy = TensorGroupWaitingStrategy(SnitchBarrierFuture, "")
-    _waitingStrategy = PerTensorWaitingStrategy(SnitchFuture)
+from typing import Dict, Tuple, ClassVar
+from Deeploy.TilingExtension.AsyncDma import (
+    AsyncDma,
+    DmaDirection,
+    Future,
+    PerTensorWaitingStrategy,
+    AsyncDmaWaitingStrategy,
+)
+
+class SnitchDma(AsyncDma):
+    _transferTemplates: ClassVar[Dict[int, NodeTemplate]] = {
+        2:
+            NodeTemplate("""
+            if (snrt_is_dm_core()) {
+                ${future} = snrt_dma_start_2d(${dest}, ${src}, ${size}, ${stride_dest}, ${stride_src}, ${repeat});
+                // WIESEP: Hack as otherwise the last commited DMA transaction ID can never be resolved.
+                snrt_dma_start_2d(${dest}, ${dest}, 1, 0, 0, 0);
+            }
+            """),
+    }
+    _waitingStrategy: ClassVar[AsyncDmaWaitingStrategy] = PerTensorWaitingStrategy(SnitchFuture)
-    _transferTemplates = {
-        2:
-            NodeTemplate(
-                "if (snrt_is_dm_core()) snrt_dma_start_2d(${dest}, ${src}, ${size}, ${stride_dest}, ${stride_src}, ${repeat});"
-            ),
-            NodeTemplate("""
-            if (snrt_is_dm_core()) {
-                ${future} = snrt_dma_start_2d(${dest}, ${src}, ${size}, ${stride_dest}, ${stride_src}, ${repeat});
-                // WIESEP: Hack as otherwise the last commited DMA transaction ID can never be resolved.
-                snrt_dma_start_2d(${dest}, ${dest}, 1, 0, 0, 0);
-            }
-            """),
-    }
-    _waitingStrategy = TensorGroupWaitingStrategy(SnitchBarrierFuture, "")
-    _waitingStrategy = PerTensorWaitingStrategy(SnitchFuture)
+from typing import Dict, Tuple, ClassVar
+from Deeploy.TilingExtension.AsyncDma import (
+    AsyncDma,
+    DmaDirection,
+    Future,
+    PerTensorWaitingStrategy,
+    AsyncDmaWaitingStrategy,
+)
+
+class SnitchDma(AsyncDma):
+    _transferTemplates: ClassVar[Dict[int, NodeTemplate]] = {
+        2:
+            NodeTemplate("""
+            if (snrt_is_dm_core()) {
+                ${future} = snrt_dma_start_2d(${dest}, ${src}, ${size}, ${stride_dest}, ${stride_src}, ${repeat});
+                // WIESEP: Hack as otherwise the last commited DMA transaction ID can never be resolved.
+                snrt_dma_start_2d(${dest}, ${dest}, 1, 0, 0, 0);
+            }
+            """),
+    }
+    _waitingStrategy: ClassVar[AsyncDmaWaitingStrategy] = PerTensorWaitingStrategy(SnitchFuture)
     def __init__(self, transferTemplates: Dict[int, NodeTemplate] = _transferTemplates) -> None:
         super().__init__(transferTemplates)
@@ -43,13 +53,13 @@ def checkTransfer(self, ctxt: NetworkContext, externalBuffer: VariableBuffer, lo
     def transferOpRepr(self, externalBuffer: VariableBuffer, localBuffer: VariableBuffer, shape: Tuple[int, ...],
                        strideExt: Tuple[int, ...], strideLoc: Tuple[int, ...], direction: DmaDirection,
                        future: Future) -> OperatorRepresentation:
-        _ = future
         operatorRepresentation: OperatorRepresentation = {
             "dest": localBuffer.name if direction == "ExternalToLocal" else externalBuffer.name,
             "src": externalBuffer.name if direction == "ExternalToLocal" else localBuffer.name,
             "repeat": shape[0],
             "size": shape[1],
             "stride_dest": strideLoc[0] if direction == "ExternalToLocal" else strideExt[0],
             "stride_src": strideExt[0] if direction == "ExternalToLocal" else strideLoc[0],
+            "future": future.name
         }
         return operatorRepresentation