added support for Celu op (#3139)

logeshwaranmcw · AlexandreEichenberger · web-flow · commit 7a7beda61c3c · 2025-04-30T16:37:19.000-04:00
Signed-off-by: logeshwaranmcw &lt;logeshwaran.elanchelian@multicorewareinc.com&gt;
Co-authored-by: Alexandre Eichenberger &lt;alexe@us.ibm.com&gt;
diff --git a/docs/SupportedONNXOps-cpu.md b/docs/SupportedONNXOps-cpu.md
@@ -41,7 +41,7 @@ Onnx-mlir currently supports ONNX operations targeting up to opset 22. Limitatio
 | **CastMap** |none | | | |
 | **CategoryMapper** |none | | | |
 | **Ceil** |6 - * | | |
-| **Celu** |none | | | |
+| **Celu** |12 - * | | | |
 | **CenterCropPad** |none | | | |
 | **Clip** |6 - * |No support for short integers. | |
 | **Col2Im** |none | | | |
diff --git a/src/Conversion/ONNXToKrnl/Math/Elementwise.cpp b/src/Conversion/ONNXToKrnl/Math/Elementwise.cpp
@@ -752,6 +752,56 @@ Value emitScalarOpFor<ONNXReluOp>(ConversionPatternRewriter &rewriter,
   return create.math.max(zero, operand);
 }
 
+//===----------------------------------------------------------------------===//
+// Scalar unary ops for lowering ONNXCeLUOp
+//===----------------------------------------------------------------------===//
+
+template <>
+struct ScalarOp<ONNXCeluOp> {
+  using FOp = CustomScalarOp;
+  using IOp = CustomScalarOp;
+};
+
+template <>
+GenOpMix getGenOpMix<ONNXCeluOp>(Type t, Operation *op) {
+  return {{GenericOps::ArithmeticGop, 2}, {GenericOps::MulGop, 1},
+      {GenericOps::MinMaxGop, 2}, {GenericOps::ExpGop, 1},
+      {GenericOps::DivGop, 1}};
+}
+
+template <>
+// celu(x) = max(0, x) + min(0, alpha * (exp(x/alpha) - 1))
+Value emitScalarOpFor<ONNXCeluOp>(ConversionPatternRewriter &rewriter,
+    Location loc, Operation *op, Type elementType,
+    ArrayRef<Value> scalarOperands) {
+  CheckIfCustomScalarOpIsSupported<ONNXCeluOp>(elementType);
+  Value operand = scalarOperands[0];
+  MultiDialectBuilder<MathBuilder> create(rewriter, loc);
+
+  // Get the 'alpha' attribute from the Celu operation.
+  auto celuOp = cast<ONNXCeluOp>(op);
+
+  double alphaValue = celuOp.getAlpha().convertToDouble();
+
+  // Create constants for 0, 1, and alpha.
+  Value zero = create.math.constant(elementType, 0.0);
+  Value one = create.math.constant(elementType, 1.0);
+  Value alpha = create.math.constant(elementType, alphaValue);
+
+  // Compute positive part: max(0, x)
+  Value positivePart = create.math.max(zero, operand);
+
+  // Compute negative part: alpha * (exp(x / alpha) - 1)
+  Value xOverAlpha = create.math.div(operand, alpha);
+  Value expVal = create.math.exp(xOverAlpha);
+  Value expMinusOne = create.math.sub(expVal, one);
+  Value scaled = create.math.mul(alpha, expMinusOne);
+
+  // Combine parts: positivePart + min(0, scaled)
+  Value negativePart = create.math.min(zero, scaled);
+  return create.math.add(positivePart, negativePart);
+}
+
 //===----------------------------------------------------------------------===//
 // Scalar unary ops for lowering ONNXLeakyReluOp
 //===----------------------------------------------------------------------===//
@@ -785,7 +835,6 @@ Value emitScalarOpFor<ONNXLeakyReluOp>(ConversionPatternRewriter &rewriter,
   return create.math.select(
       lessThanZero, create.math.mul(alpha, operand), operand);
 }
-
 //===----------------------------------------------------------------------===//
 // Scalar unary ops for lowering ONNXPReluOp
 //===----------------------------------------------------------------------===//
@@ -1756,15 +1805,16 @@ bool OpFusionHelper::checkFusibleOp(Operation *useOp, Operation *defOp,
       // Unary Op
       mlir::ONNXAbsOp, mlir::ONNXAtanOp, mlir::ONNXCastOp, mlir::ONNXCeilOp,
       mlir::ONNXCosOp, mlir::ONNXCoshOp, mlir::ONNXDequantizeLinearOp,
-      mlir::ONNXEluOp, mlir::ONNXErfOp, mlir::ONNXAcosOp, mlir::ONNXAcoshOp,
-      mlir::ONNXAsinOp, mlir::ONNXAsinhOp, mlir::ONNXAtanhOp, mlir::ONNXExpOp,
-      mlir::ONNXFloorOp, mlir::ONNXGeluOp, mlir::ONNXHardSigmoidOp,
-      mlir::ONNXHardSwishOp, mlir::ONNXIsInfOp, mlir::ONNXIsNaNOp,
-      mlir::ONNXLeakyReluOp, mlir::ONNXLogOp, mlir::ONNXNegOp, mlir::ONNXNotOp,
-      mlir::ONNXReciprocalOp, mlir::ONNXReluOp, mlir::ONNXRoundOp,
-      mlir::ONNXSeluOp, mlir::ONNXSigmoidOp, mlir::ONNXSignOp, mlir::ONNXSinOp,
-      mlir::ONNXSinhOp, mlir::ONNXSoftplusOp, mlir::ONNXSoftsignOp,
-      mlir::ONNXSqrtOp, mlir::ONNXTanOp, mlir::ONNXTanhOp,
+      mlir::ONNXCeluOp, mlir::ONNXEluOp, mlir::ONNXErfOp, mlir::ONNXAcosOp,
+      mlir::ONNXAcoshOp, mlir::ONNXAsinOp, mlir::ONNXAsinhOp, mlir::ONNXAtanhOp,
+      mlir::ONNXExpOp, mlir::ONNXFloorOp, mlir::ONNXGeluOp,
+      mlir::ONNXHardSigmoidOp, mlir::ONNXHardSwishOp, mlir::ONNXIsInfOp,
+      mlir::ONNXIsNaNOp, mlir::ONNXLeakyReluOp, mlir::ONNXLogOp,
+      mlir::ONNXNegOp, mlir::ONNXNotOp, mlir::ONNXReciprocalOp,
+      mlir::ONNXReluOp, mlir::ONNXRoundOp, mlir::ONNXSeluOp,
+      mlir::ONNXSigmoidOp, mlir::ONNXSignOp, mlir::ONNXSinOp, mlir::ONNXSinhOp,
+      mlir::ONNXSoftplusOp, mlir::ONNXSoftsignOp, mlir::ONNXSqrtOp,
+      mlir::ONNXTanOp, mlir::ONNXTanhOp,
       // Binary Op
       mlir::ONNXEqualOp, mlir::ONNXGreaterOp, mlir::ONNXGreaterOrEqualOp,
       mlir::ONNXLessOp, mlir::ONNXLessOrEqualOp, mlir::ONNXModOp,
@@ -2708,6 +2758,7 @@ void populateLoweringONNXElementwiseOpPattern(RewritePatternSet &patterns,
       ONNXElementwiseBinaryOpLowering<mlir::ONNXBitwiseXorOp>,
       ONNXElementwiseUnaryOpLowering<mlir::ONNXCastOp>,
       ONNXElementwiseUnaryOpLowering<mlir::ONNXCeilOp>,
+      ONNXElementwiseUnaryOpLowering<mlir::ONNXCeluOp>,
       ONNXElementwiseUnaryOpLowering<mlir::ONNXCosOp>,
       ONNXElementwiseUnaryOpLowering<mlir::ONNXCoshOp>,
       ONNXElementwiseUnaryOpLowering<mlir::ONNXDequantizeLinearOp>,
diff --git a/test/backend/inference_backend.py b/test/backend/inference_backend.py
@@ -484,6 +484,18 @@ def get_test_models():
             DYNAMIC_SHAPE: {-1: {-1}},
             CONSTANT_INPUT: {-1},
         },
+        # ==OP== Celu
+        # ==MIN== 12
+        "test_celu_cpu": {
+            STATIC_SHAPE: {},
+            DYNAMIC_SHAPE: {-1: {-1}},
+            CONSTANT_INPUT: {-1},
+        },
+        "test_celu_expanded_cpu": {
+            STATIC_SHAPE: {},
+            DYNAMIC_SHAPE: {-1: {-1}},
+            CONSTANT_INPUT: {-1},
+        },
         # ==OP== Clip
         # ==MIN== 6
         # ==LIM== No support for short integers
diff --git a/test/mlir/conversion/onnx_to_krnl/Math/Elementwise_with_canonicalize.mlir b/test/mlir/conversion/onnx_to_krnl/Math/Elementwise_with_canonicalize.mlir
@@ -1184,6 +1184,41 @@ func.func private @test_leakyrelu(%arg0 : tensor<?x10xf32>) -> tensor<*xf32> {
 
 // -----
 
+func.func private @test_celu(%arg0 : tensor<?x3x224x224xf32>) -> tensor<?x3x224x224xf32> {
+  %0 = "onnx.Celu"(%arg0) {alpha = 1.000000e+00 : f32} : (tensor<?x3x224x224xf32>) -> tensor<?x3x224x224xf32>
+  func.return %0 : tensor<?x3x224x224xf32>
+
+// mlir2FileCheck.py
+// CHECK-DAG:   [[MAP_0_:#.+]] = affine_map<(d0) -> (d0)>
+// CHECK-LABEL:   func.func private @test_celu
+// CHECK-SAME:    ([[PARAM_0_:%.+]]: memref<?x3x224x224xf32>) -> memref<?x3x224x224xf32> {
+// CHECK-DAG:        [[CST_1_:%.+]] = arith.constant 1.000000e+00 : f32
+// CHECK-DAG:        [[CST_0_:%.+]] = arith.constant 0.000000e+00 : f32
+// CHECK-DAG:        [[CST_IDX_0_:%.+]] = arith.constant 0 : index
+// CHECK:            [[DIM_0_:%.+]] = memref.dim [[PARAM_0_]], [[CST_IDX_0_]] : memref<?x3x224x224xf32>
+// CHECK-DAG:        [[ALLOC_:%.+]] = memref.alloc([[DIM_0_]]) {{.*}}: memref<?x3x224x224xf32>
+// CHECK-DAG:        [[LOOPS_:%.+]]:4 = krnl.define_loops 4
+// CHECK-DAG:        [[VAR_DIM_:%.+]] = memref.dim [[PARAM_0_]], [[CST_IDX_0_]] : memref<?x3x224x224xf32>
+// CHECK:            krnl.iterate([[LOOPS_]]#0, [[LOOPS_]]#1, [[LOOPS_]]#2, [[LOOPS_]]#3) with (
+// CHECK-SAME:         [[LOOPS_]]#0 -> [[I0_:%.+]] = 0 to [[MAP_0_]]([[VAR_DIM_]]),
+// CHECK-SAME:         [[LOOPS_]]#1 -> [[I1_:%.+]] = 0 to 3,
+// CHECK-SAME:         [[LOOPS_]]#2 -> [[I2_:%.+]] = 0 to 224,
+// CHECK-SAME:         [[LOOPS_]]#3 -> [[I3_:%.+]] = 0 to 224){
+// CHECK:              [[IVS_:%.+]]:4 = krnl.get_induction_var_value([[LOOPS_]]#0, [[LOOPS_]]#1, [[LOOPS_]]#2, [[LOOPS_]]#3)
+// CHECK:              [[LOAD_:%.+]] = krnl.load [[PARAM_0_]]{{.*}}[[IVS_]]#0, [[IVS_]]#1, [[IVS_]]#2, [[IVS_]]#3] : memref<?x3x224x224xf32>
+// CHECK:              [[MAX_:%.+]] = arith.maxnumf [[LOAD_]], [[CST_0_]] : f32
+// CHECK:              [[EXP_:%.+]] = math.exp [[LOAD_]] : f32
+// CHECK:              [[SUB_:%.+]] = arith.subf [[EXP_]], [[CST_1_]] : f32
+// CHECK:              [[MIN_:%.+]] = arith.minnumf [[SUB_]], [[CST_0_]] : f32
+// CHECK:              [[SUM_:%.+]] = arith.addf [[MAX_]], [[MIN_]] : f32
+// CHECK:              krnl.store [[SUM_]], [[ALLOC_]]{{.*}}[[IVS_]]#0, [[IVS_]]#1, [[IVS_]]#2, [[IVS_]]#3] : memref<?x3x224x224xf32>
+// CHECK:            }
+// CHECK:            return [[ALLOC_]] : memref<?x3x224x224xf32>
+// CHECK:          }
+}
+
+// -----
+
 func.func private @test_selu(%arg0 : tensor<?x10xf32>) -> tensor<*xf32> {
   %0 = "onnx.Selu"(%arg0) {alpha=1.0:f32, gamma=2.0:f32} : (tensor<?x10xf32>) -> tensor<*xf32>
   "func.return"(%0) : (tensor<*xf32>) -> ()
diff --git a/test/mlir/conversion/onnx_to_krnl/Math/Elementwise_with_canonicalize_O3.mlir b/test/mlir/conversion/onnx_to_krnl/Math/Elementwise_with_canonicalize_O3.mlir
@@ -1673,6 +1673,50 @@ func.func private @test_relu(%arg0 : tensor<?x10xf32>) -> tensor<*xf32> {
 
 // -----
 
+func.func private @test_celu(%arg0 : tensor<?x3x224x224xf32>) -> tensor<?x3x224x224xf32> {
+  %0 = "onnx.Celu"(%arg0) {alpha = 1.000000e+00 : f32} : (tensor<?x3x224x224xf32>) -> tensor<?x3x224x224xf32>
+  func.return %0 : tensor<?x3x224x224xf32>
+
+// CHECK-DAG:   [[MAP_0_:#.+]] = affine_map<()[s0] -> (s0 * 150528)>
+// CHECK-DAG:   [[MAP_1_:#.+]] = affine_map<()[s0, s1, s2] -> (s2)>
+// CHECK-LABEL: func.func private @test_celu
+// CHECK-SAME:  ([[PARAM_0_:%.+]]: memref<?x3x224x224xf32>) -> memref<?x3x224x224xf32> {
+// CHECK-DAG:     [[VAR_cst_:%.+]] = arith.constant dense<1.000000e+00> : vector<32xf32>
+// CHECK-DAG:     [[VAR_cst_0_:%.+]] = arith.constant dense<0.000000e+00> : vector<32xf32>
+// CHECK-DAG:     [[CST_0_:%.+]] = arith.constant 0 : index
+// CHECK:         [[VAR_dim_:%.+]] = memref.dim [[PARAM_0_]], [[CST_0_]] : memref<?x3x224x224xf32>
+
+// CHECK:         [[RES_ALLOC_:%.+]] = memref.alloc([[VAR_dim_]]) {alignment = 16 : i64} : memref<?x3x224x224xf32>
+// CHECK-DAG:     [[VAR_dim_1_:%.+]] = memref.dim [[PARAM_0_]], [[CST_0_]] : memref<?x3x224x224xf32>
+// CHECK-DAG:     [[VAR_0_:%.+]] = affine.apply [[MAP_0_]](){{.}}[[VAR_dim_1_]]
+// CHECK-DAG:     [[RESHAPE_ALLOC_:%.+]] = memref.alloc() {alignment = 16 : i64} : memref<1xindex>
+// CHECK:         affine.store [[VAR_0_]], [[RESHAPE_ALLOC_]][0] : memref<1xindex>
+// CHECK-DAG:     [[VAR_RESHAPE_:%.+]] = memref.reshape [[PARAM_0_]]([[RESHAPE_ALLOC_]]) : (memref<?x3x224x224xf32>, memref<1xindex>) -> memref<?xf32>
+// CHECK-DAG:     [[VAR_1_:%.+]] = affine.apply [[MAP_0_]](){{.}}[[VAR_dim_]]
+// CHECK-DAG:     [[RESHAPE_ALLOC_2_:%.+]] = memref.alloc() {alignment = 16 : i64} : memref<1xindex>
+// CHECK:         affine.store [[VAR_1_]], [[RESHAPE_ALLOC_2_]][0] : memref<1xindex>
+// CHECK:         [[VAR_RESHAPE_4_:%.+]] = memref.reshape [[RES_ALLOC_]]([[RESHAPE_ALLOC_2_]]) : (memref<?x3x224x224xf32>, memref<1xindex>) -> memref<?xf32>
+// CHECK:         krnl.iterate() with (){
+// CHECK:           [[LOOP_0_:%.+]] = krnl.define_loops 1
+// CHECK:           [[BLOCK_TILE_0_:%.+]], [[BLOCK_IN_0_:%.+]] = krnl.block [[LOOP_0_]] 32 : (!krnl.loop) -> (!krnl.loop, !krnl.loop)
+// CHECK:         krnl.iterate(%loop_block) with (%2 -> %arg1 = 0 to #map1()[%dim_1, %dim, %1]){
+// CHECK:           [[IV_0_:%.+]] = krnl.get_induction_var_value([[BLOCK_TILE_0_]]) : (!krnl.loop) -> index
+// CHECK:           [[VLOAD_:%.+]] = vector.load [[VAR_RESHAPE_:%.+]]{{\[}}[[IV_0_]]] : memref<?xf32>, vector<32xf32>
+// CHECK:           [[VMAX_:%.+]] = arith.maxnumf [[VLOAD_]], [[VAR_cst_0_]] : vector<32xf32>
+// CHECK:           [[VEXP_:%.+]] = math.exp [[VLOAD_]] : vector<32xf32>
+// CHECK:           [[VSUB_:%.+]] = arith.subf [[VEXP_]], [[VAR_cst_]] : vector<32xf32>
+// CHECK:           [[VMIN_:%.+]] = arith.minnumf [[VSUB_]], [[VAR_cst_0_]] : vector<32xf32>
+// CHECK:           [[VADD_:%.+]] = arith.addf [[VMAX_]], [[VMIN_]] : vector<32xf32>
+// CHECK:           vector.store [[VADD_]], [[VAR_RESHAPE_4_:%.+]]{{\[}}[[IV_0_]]] : memref<?xf32>, vector<32xf32>
+// CHECK:       }
+// CHECK:     }
+// CHECK:     return [[RES_ALLOC_]] : memref<?x3x224x224xf32>
+
+}
+
+
+
+// -----
 
 func.func private @test_elu(%arg0 : tensor<?x10xf32>) -> tensor<*xf32> {
   %0 = "onnx.Elu"(%arg0) {alpha=2.0:f32} : (tensor<?x10xf32>) -> tensor<*xf32>