better MaterializeMergeSchedule.cpp that emits much more compact IR

add support for other constant-time arith ops in codegen
2026-05-24 10:10:24 +02:00
parent b79ce8eeaa
commit c734f1b37e
6 changed files with 2067 additions and 428 deletions
@@ -405,6 +405,16 @@ void PimCodeGen::codeGenLoadOp(pim::PimMemCopyHostToDevOp loadOp, const StaticVa
                loadOp.getSize());
 }

+void PimCodeGen::codeGenLoadBatchOp(pim::PimMemCopyHostToDevBatchOp loadOp,
+                                    const StaticValueKnowledge& knowledge) const {
+  emitMemCopyOp("ld",
+                addressOf(loadOp.getDeviceTarget(), knowledge),
+                loadOp.getDeviceTargetOffset(),
+                addressOf(loadOp.getHostSource(), knowledge),
+                loadOp.getHostSourceOffset(),
+                loadOp.getSize());
+}
+
 void PimCodeGen::codeGenStoreOp(pim::PimMemCopyDevToHostOp storeOp, const StaticValueKnowledge& knowledge) const {
  auto hostTargetOffset = resolveIndexValue(storeOp.getHostTargetOffset(), knowledge);
  auto deviceSourceOffset = resolveIndexValue(storeOp.getDeviceSourceOffset(), knowledge);
@@ -825,6 +835,8 @@ static int64_t codeGenCoreOps(Block& block, PimCodeGen& coreCodeGen) {
    walkPimCoreBlock(block, StaticValueKnowledge {}, [&](Operation& op, const StaticValueKnowledge& knowledge) {
      if (auto loadOp = dyn_cast<pim::PimMemCopyHostToDevOp>(op))
        coreCodeGen.codeGenLoadOp(loadOp, knowledge);
+      else if (auto loadBatchOp = dyn_cast<pim::PimMemCopyHostToDevBatchOp>(op))
+        coreCodeGen.codeGenLoadBatchOp(loadBatchOp, knowledge);
      else if (auto storeOp = dyn_cast<pim::PimMemCopyDevToHostOp>(op))
        coreCodeGen.codeGenStoreOp(storeOp, knowledge);
      else if (auto lmvOp = dyn_cast<pim::PimMemCopyOp>(op))