Refactor the code, simplify conditional test case checks.

shahidact · shahidact · commit 772484d8ffc6 · 2025-08-28T00:01:12.000-07:00
diff --git a/test/Integration/mlir-gen-matmul.mlir b/test/Integration/mlir-gen-matmul.mlir
@@ -141,100 +141,69 @@
 // MXF16-CONTRACT:           return %[[VAL_0]] : tensor<2x16x64x48xf32>
 // MXF16-CONTRACT:         }
 
-// MXBF16-DEQUANT: #[[$ATTR_0:.+]] = affine_map<(d0, d1, d2) -> (d0, d2)>
-// MXBF16-DEQUANT: #[[$ATTR_1:.+]] = affine_map<(d0, d1, d2) -> (d2, d1)>
-// MXBF16-DEQUANT: #[[$ATTR_2:.+]] = affine_map<(d0, d1, d2) -> (d0, d1)>
-// MXBF16-DEQUANT: #[[$ATTR_3:.+]] = affine_map<(d0, d1) -> (d0)>
-// MXBF16-DEQUANT: #[[$ATTR_4:.+]] = affine_map<(d0, d1) -> (d1)>
-// MXBF16-DEQUANT: #[[$ATTR_5:.+]] = affine_map<(d0, d1) -> (d0, d1)>
+
+// Perform Gemm dequntization using given scales.
+
+// MXBF16-DEQUANT: #map = affine_map<(d0, d1, d2) -> (d0, d2)>
+// MXBF16-DEQUANT: #map1 = affine_map<(d0, d1, d2) -> (d2, d1)>
+// MXBF16-DEQUANT: #map2 = affine_map<(d0, d1, d2) -> (d0, d1)>
+// MXBF16-DEQUANT: #map3 = affine_map<(d0, d1) -> (d0)>
+// MXBF16-DEQUANT: #map4 = affine_map<(d0, d1) -> (d1)>
+// MXBF16-DEQUANT: #map5 = affine_map<(d0, d1) -> (d0, d1)>
 // MXBF16-DEQUANT-LABEL:   func.func @entry(
-// MXBF16-DEQUANT-SAME:                     %[[ARG0:.*]]: tensor<128x2304xbf16>,
-// MXBF16-DEQUANT-SAME:                     %[[ARG1:.*]]: tensor<128xf32>,
-// MXBF16-DEQUANT-SAME:                     %[[ARG2:.*]]: tensor<2304x768xbf16>,
-// MXBF16-DEQUANT-SAME:                     %[[ARG3:.*]]: tensor<768xf32>,
-// MXBF16-DEQUANT-SAME:                     %[[ARG4:.*]]: tensor<128x768xf32>) -> tensor<128x768xf32> {
-// MXBF16-DEQUANT:           %[[VAL_0:.*]] = linalg.contract indexing_maps = [#[[$ATTR_0]], #[[$ATTR_1]], #[[$ATTR_2]]] ins(%[[ARG0]], %[[ARG2]] : tensor<128x2304xbf16>, tensor<2304x768xbf16>) outs(%[[ARG4]] : tensor<128x768xf32>) -> tensor<128x768xf32>
-// MXBF16-DEQUANT:           %[[VAL_1:.*]] = tensor.empty() : tensor<128x768xf32>
-// MXBF16-DEQUANT:           %[[VAL_2:.*]] = linalg.generic {indexing_maps = [#[[$ATTR_3]], #[[$ATTR_4]], #[[$ATTR_5]]], iterator_types = ["parallel", "parallel"]} ins(%[[ARG1]], %[[ARG3]] : tensor<128xf32>, tensor<768xf32>) outs(%[[VAL_1]] : tensor<128x768xf32>) {
-// MXBF16-DEQUANT:           ^bb0(%[[VAL_3:.*]]: f32, %[[VAL_4:.*]]: f32, %[[VAL_5:.*]]: f32):
-// MXBF16-DEQUANT:             %[[VAL_6:.*]] = arith.mulf %[[VAL_3]], %[[VAL_4]] : f32
-// MXBF16-DEQUANT:             linalg.yield %[[VAL_6]] : f32
-// MXBF16-DEQUANT:           } -> tensor<128x768xf32>
-// MXBF16-DEQUANT:           %[[VAL_7:.*]] = tensor.empty() : tensor<128x768xf32>
-// MXBF16-DEQUANT:           %[[VAL_8:.*]] = linalg.mul ins(%[[VAL_0]], %[[VAL_2]] : tensor<128x768xf32>, tensor<128x768xf32>) outs(%[[VAL_7]] : tensor<128x768xf32>) -> tensor<128x768xf32>
-// MXBF16-DEQUANT:           return %[[VAL_8]] : tensor<128x768xf32>
-// MXBF16-DEQUANT:         }
-
-// MXI8F32-DEQUANT: #[[$ATTR_0:.+]] = affine_map<(d0, d1, d2) -> (d0, d2)>
-// MXI8F32-DEQUANT: #[[$ATTR_1:.+]] = affine_map<(d0, d1, d2) -> (d2, d1)>
-// MXI8F32-DEQUANT: #[[$ATTR_2:.+]] = affine_map<(d0, d1, d2) -> (d0, d1)>
-// MXI8F32-DEQUANT: #[[$ATTR_3:.+]] = affine_map<(d0, d1) -> (d0)>
-// MXI8F32-DEQUANT: #[[$ATTR_4:.+]] = affine_map<(d0, d1) -> (d1)>
-// MXI8F32-DEQUANT: #[[$ATTR_5:.+]] = affine_map<(d0, d1) -> (d0, d1)>
+// MXBF16-DEQUANT-SAME:                     %arg0: tensor<128x2304xbf16>,
+// MXBF16-DEQUANT-SAME:                     %arg1: tensor<128xf32>,
+// MXBF16-DEQUANT-SAME:                     %arg2: tensor<2304x768xbf16>,
+// MXBF16-DEQUANT-SAME:                     %arg3: tensor<768xf32>,
+// MXBF16-DEQUANT-SAME:                     %arg4: tensor<128x768xf32>) -> tensor<128x768xf32> {
+// MXBF16-DEQUANT:           linalg.contract indexing_maps = [#map, #map1, #map2]
+// MXBF16-DEQUANT:           linalg.generic  {{.*}} iterator_types = ["parallel", "parallel"]
+// MXBF16-DEQUANT:             arith.mulf
+// MXBF16-DEQUANT:           linalg.mul
+
+
+// MXI8F32-DEQUANT: #map = affine_map<(d0, d1, d2) -> (d0, d2)>
+// MXI8F32-DEQUANT: #map1 = affine_map<(d0, d1, d2) -> (d2, d1)>
+// MXI8F32-DEQUANT: #map2 = affine_map<(d0, d1, d2) -> (d0, d1)>
+// MXI8F32-DEQUANT: #map3 = affine_map<(d0, d1) -> (d0)>
+// MXI8F32-DEQUANT: #map4 = affine_map<(d0, d1) -> (d1)>
+// MXI8F32-DEQUANT: #map5 = affine_map<(d0, d1) -> (d0, d1)>
 // MXI8F32-DEQUANT-LABEL:   func.func @entry(
-// MXI8F32-DEQUANT-SAME:                     %[[ARG0:.*]]: tensor<128x2304xi8>,
-// MXI8F32-DEQUANT-SAME:                     %[[ARG1:.*]]: tensor<128xf32>,
-// MXI8F32-DEQUANT-SAME:                     %[[ARG2:.*]]: tensor<2304x768xi8>,
-// MXI8F32-DEQUANT-SAME:                     %[[ARG3:.*]]: tensor<768xf32>,
-// MXI8F32-DEQUANT-SAME:                     %[[ARG4:.*]]: tensor<128x768xf32>) -> tensor<128x768xf32> {
-// MXI8F32-DEQUANT:           %[[VAL_0:.*]] = linalg.contract indexing_maps = [#[[$ATTR_0]], #[[$ATTR_1]], #[[$ATTR_2]]] ins(%[[ARG0]], %[[ARG2]] : tensor<128x2304xi8>, tensor<2304x768xi8>) outs(%[[ARG4]] : tensor<128x768xf32>) -> tensor<128x768xf32>
-// MXI8F32-DEQUANT:           %[[VAL_1:.*]] = tensor.empty() : tensor<128x768xf32>
-// MXI8F32-DEQUANT:           %[[VAL_2:.*]] = linalg.generic {indexing_maps = [#[[$ATTR_3]], #[[$ATTR_4]], #[[$ATTR_5]]], iterator_types = ["parallel", "parallel"]} ins(%[[ARG1]], %[[ARG3]] : tensor<128xf32>, tensor<768xf32>) outs(%[[VAL_1]] : tensor<128x768xf32>) {
-// MXI8F32-DEQUANT:           ^bb0(%[[VAL_3:.*]]: f32, %[[VAL_4:.*]]: f32, %[[VAL_5:.*]]: f32):
-// MXI8F32-DEQUANT:             %[[VAL_6:.*]] = arith.mulf %[[VAL_3]], %[[VAL_4]] : f32
-// MXI8F32-DEQUANT:             linalg.yield %[[VAL_6]] : f32
-// MXI8F32-DEQUANT:           } -> tensor<128x768xf32>
-// MXI8F32-DEQUANT:           %[[VAL_7:.*]] = tensor.empty() : tensor<128x768xf32>
-// MXI8F32-DEQUANT:           %[[VAL_8:.*]] = linalg.mul ins(%[[VAL_0]], %[[VAL_2]] : tensor<128x768xf32>, tensor<128x768xf32>) outs(%[[VAL_7]] : tensor<128x768xf32>) -> tensor<128x768xf32>
-// MXI8F32-DEQUANT:           return %[[VAL_8]] : tensor<128x768xf32>
-// MXI8F32-DEQUANT:         }
-
-// MXF32I8-QUANT: #[[$ATTR_0:.+]] = affine_map<(d0, d1, d2) -> (d0, d2)>
-// MXF32I8-QUANT: #[[$ATTR_1:.+]] = affine_map<(d0, d1, d2) -> (d2, d1)>
-// MXF32I8-QUANT: #[[$ATTR_2:.+]] = affine_map<(d0, d1, d2) -> (d0, d1)>
-// MXF32I8-QUANT: #[[$ATTR_3:.+]] = affine_map<(d0) -> (d0)>
-// MXF32I8-QUANT: #[[$ATTR_4:.+]] = affine_map<(d0, d1) -> (d0, d1)>
+// MXI8F32-DEQUANT-SAME:                     %arg0: tensor<128x2304xi8>,
+// MXI8F32-DEQUANT-SAME:                     %arg1: tensor<128xf32>,
+// MXI8F32-DEQUANT-SAME:                     %arg2: tensor<2304x768xi8>,
+// MXI8F32-DEQUANT-SAME:                     %arg3: tensor<768xf32>,
+// MXI8F32-DEQUANT-SAME:                     %arg4: tensor<128x768xf32>) -> tensor<128x768xf32> {
+// MXI8F32-DEQUANT:           linalg.contract indexing_maps = [#map, #map1, #map2]
+// MXI8F32-DEQUANT:           linalg.generic  {{.*}} iterator_types = ["parallel", "parallel"]
+// MXI8F32-DEQUANT:             arith.mulf
+// MXI8F32-DEQUANT:           linalg.mul
+
+
+// Perform Gemm quntization with dynamic scale computation.
+
+// MXF32I8-QUANT: #map = affine_map<(d0, d1, d2) -> (d0, d2)>
+// MXF32I8-QUANT: #map1 = affine_map<(d0, d1, d2) -> (d2, d1)>
+// MXF32I8-QUANT: #map2 = affine_map<(d0, d1, d2) -> (d0, d1)>
+// MXF32I8-QUANT: #map3 = affine_map<(d0) -> (d0)>
+// MXF32I8-QUANT: #map4 = affine_map<(d0, d1) -> (d0, d1)>
 // MXF32I8-QUANT-LABEL:   func.func @entry(
 // MXF32I8-QUANT-SAME:                     %[[ARG0:.*]]: tensor<128x2304xf32>,
 // MXF32I8-QUANT-SAME:                     %[[ARG1:.*]]: tensor<2304x768xf32>,
 // MXF32I8-QUANT-SAME:                     %[[ARG2:.*]]: tensor<128x768xi8>) -> tensor<128x768xi8> {
-// MXF32I8-QUANT:           %[[VAL_0:.*]] = arith.constant 0.000000e+00 : f32
-// MXF32I8-QUANT:           %[[VAL_1:.*]] = tensor.empty() : tensor<128x768xf32>
-// MXF32I8-QUANT:           %[[VAL_2:.*]] = linalg.fill ins(%[[VAL_0]] : f32) outs(%[[VAL_1]] : tensor<128x768xf32>) -> tensor<128x768xf32>
-// MXF32I8-QUANT:           %[[VAL_3:.*]] = linalg.contract indexing_maps = [#[[$ATTR_0]], #[[$ATTR_1]], #[[$ATTR_2]]] ins(%[[ARG0]], %[[ARG1]] : tensor<128x2304xf32>, tensor<2304x768xf32>) outs(%[[VAL_2]] : tensor<128x768xf32>) -> tensor<128x768xf32>
-// MXF32I8-QUANT:           %[[VAL_4:.*]] = tensor.empty() : tensor<128x768xf32>
-// MXF32I8-QUANT:           %[[VAL_5:.*]] = arith.constant 0xFF800000 : f32
-// MXF32I8-QUANT:           %[[VAL_6:.*]] = tensor.empty() : tensor<768xf32>
-// MXF32I8-QUANT:           %[[VAL_7:.*]] = linalg.fill ins(%[[VAL_5]] : f32) outs(%[[VAL_6]] : tensor<768xf32>) -> tensor<768xf32>
-// MXF32I8-QUANT:           %[[VAL_8:.*]] = linalg.reduce ins(%[[VAL_3]] : tensor<128x768xf32>) outs(%[[VAL_7]] : tensor<768xf32>) dimensions = [0]
-// MXF32I8-QUANT:             (%[[VAL_9:.*]]: f32, %[[VAL_10:.*]]: f32) {
-// MXF32I8-QUANT:               %[[VAL_11:.*]] = math.absf %[[VAL_9]] : f32
-// MXF32I8-QUANT:               %[[VAL_12:.*]] = arith.maximumf %[[VAL_11]], %[[VAL_10]] : f32
-// MXF32I8-QUANT:               linalg.yield %[[VAL_12]] : f32
-// MXF32I8-QUANT:             }
-// MXF32I8-QUANT:           %[[VAL_13:.*]] = arith.constant 0 : i32
-// MXF32I8-QUANT:           %[[VAL_14:.*]] = arith.constant 0.000000e+00 : f32
-// MXF32I8-QUANT:           %[[VAL_15:.*]] = tensor.empty() : tensor<768xf32>
-// MXF32I8-QUANT:           %[[VAL_16:.*]] = linalg.fill ins(%[[VAL_14]] : f32) outs(%[[VAL_15]] : tensor<768xf32>) -> tensor<768xf32>
-// MXF32I8-QUANT:           %[[VAL_17:.*]] = linalg.generic {indexing_maps = [#[[$ATTR_3]], #[[$ATTR_3]]], iterator_types = ["parallel"]} ins(%[[VAL_8]] : tensor<768xf32>) outs(%[[VAL_16]] : tensor<768xf32>) {
-// MXF32I8-QUANT:           ^bb0(%[[VAL_18:.*]]: f32, %[[VAL_19:.*]]: f32):
-// MXF32I8-QUANT:             %[[VAL_20:.*]] = llvm.intr.frexp(%[[VAL_18]]) : (f32) -> !llvm.struct<(f32, i32)>
-// MXF32I8-QUANT:             %[[VAL_21:.*]] = llvm.extractvalue %[[VAL_20]][1] : !llvm.struct<(f32, i32)>
-// MXF32I8-QUANT:             %[[VAL_22:.*]] = arith.constant 7 : i32
-// MXF32I8-QUANT:             %[[VAL_23:.*]] = arith.subi %[[VAL_21]], %[[VAL_22]] : i32
-// MXF32I8-QUANT:             %[[VAL_24:.*]] = arith.subi %[[VAL_13]], %[[VAL_23]] : i32
-// MXF32I8-QUANT:             %[[VAL_25:.*]] = arith.sitofp %[[VAL_24]] : i32 to f32
-// MXF32I8-QUANT:             %[[VAL_26:.*]] = math.exp2 %[[VAL_25]] : f32
-// MXF32I8-QUANT:             linalg.yield %[[VAL_26]] : f32
-// MXF32I8-QUANT:           } -> tensor<768xf32>
-// MXF32I8-QUANT:           %[[VAL_27:.*]] = linalg.fill ins(%[[VAL_5]] : f32) outs(%[[VAL_4]] : tensor<128x768xf32>) -> tensor<128x768xf32>
-// MXF32I8-QUANT:           %[[VAL_28:.*]] = linalg.broadcast ins(%[[VAL_17]] : tensor<768xf32>) outs(%[[VAL_27]] : tensor<128x768xf32>) dimensions = [0]
-// MXF32I8-QUANT:           %[[VAL_29:.*]] = linalg.mul ins(%[[VAL_3]], %[[VAL_28]] : tensor<128x768xf32>, tensor<128x768xf32>) outs(%[[VAL_2]] : tensor<128x768xf32>) -> tensor<128x768xf32>
-// MXF32I8-QUANT:           %[[VAL_30:.*]] = tensor.empty() : tensor<128x768xi8>
-// MXF32I8-QUANT:           %[[VAL_31:.*]] = linalg.generic {indexing_maps = [#[[$ATTR_4]], #[[$ATTR_4]]], iterator_types = ["parallel", "parallel"]} ins(%[[VAL_29]] : tensor<128x768xf32>) outs(%[[VAL_30]] : tensor<128x768xi8>) {
-// MXF32I8-QUANT:           ^bb0(%[[VAL_32:.*]]: f32, %[[VAL_33:.*]]: i8):
-// MXF32I8-QUANT:             %[[VAL_34:.*]] = arith.fptosi %[[VAL_32]] : f32 to i8
-// MXF32I8-QUANT:             linalg.yield %[[VAL_34]] : i8
-// MXF32I8-QUANT:           } -> tensor<128x768xi8>
-// MXF32I8-QUANT:           return %[[VAL_31]] : tensor<128x768xi8>
-// MXF32I8-QUANT:         }
+// MXF32I8-QUANT:           linalg.contract indexing_maps = [#map, #map1, #map2]
+// MXF32I8-QUANT:           linalg.reduce {{.*}} dimensions = [0]
+// MXF32I8-QUANT:               math.absf
+// MXF32I8-QUANT:               arith.maximumf
+// MXF32I8-QUANT:           linalg.generic  {indexing_maps = [#map3, #map3], iterator_types = ["parallel"]}
+// MXF32I8-QUANT:               llvm.intr.frexp
+// MXF32I8-QUANT:               llvm.extractvalue
+// MXF32I8-QUANT:               arith.constant 7
+// MXF32I8-QUANT:               arith.subi
+// MXF32I8-QUANT:               arith.subi
+// MXF32I8-QUANT:               arith.sitofp
+// MXF32I8-QUANT:               math.exp2
+// MXF32I8-QUANT:           linalg.broadcast
+// MXF32I8-QUANT:           linalg.mul
+// MXF32I8-QUANT:           linalg.generic
+// MXF32I8-QUANT:               arith.fptosi
diff --git a/tools/mlir-gen/MLIRGen.cpp b/tools/mlir-gen/MLIRGen.cpp
@@ -184,7 +184,7 @@ MLIRGenerator::MLIRGenerator(StringRef outputOpKindStr, StringRef kernelStr,
   builder.setInsertionPoint(module);
 }
 
-void MLIRGenerator::getKernelTypes(KernelArgs &args, bool isQuantKernel) {
+void MLIRGenerator::getKernelTypes(KernelArgs &args) {
   // Input type, also first layer's input
   TensorType currentType = getShape({batch, layers.front()}, PACK_INPUT);
 
@@ -200,14 +200,13 @@ void MLIRGenerator::getKernelTypes(KernelArgs &args, bool isQuantKernel) {
     arg.index = i;
     arg.input.type = currentType;
     // Scale inputs are only needed for dequantization.
-    if (isQuantKernel && quantType == QuantizationType::Dequant)
-      arg.inputScale.type = getShape({batch}, INPUT_SCALE, isQuantKernel);
+    if (quantType == QuantizationType::Dequant)
+      arg.inputScale.type = getShape({batch}, INPUT_SCALE);
     arg.weight.type = getShape({inputSize, outputSize}, PACK_WEIGHT);
-    if (isQuantKernel && quantType == QuantizationType::Dequant)
-      arg.weightScale.type =
-          getShape({outputSize}, WEIGHT_SCALE, isQuantKernel);
+    if (quantType == QuantizationType::Dequant)
+      arg.weightScale.type = getShape({outputSize}, WEIGHT_SCALE);
     arg.bias.type = getShape({outputSize}, PACK_OUTPUT);
-    arg.output.type = getShape({batch, outputSize}, PACK_OUTPUT, isQuantKernel);
+    arg.output.type = getShape({batch, outputSize}, PACK_OUTPUT);
     args.push_back(arg);
 
     // Update next input type with the output type of this layer
@@ -255,15 +254,15 @@ Value MLIRGenerator::createLayer(LayerArgs &args, bool hasMixedType) {
   return chain;
 }
 
-void MLIRGenerator::createKernel(bool hasMixedType, bool isQuantKernel) {
+void MLIRGenerator::createKernel(bool hasMixedType) {
   assert(((kernelType == KernelType::Const) ||
           (kernelType == KernelType::Args)) &&
          "Invalid kernel type");
   OpBuilder::InsertionGuard guard(builder);
 
   // Get all kernel types first
   KernelArgs args;
-  getKernelTypes(args, isQuantKernel);
+  getKernelTypes(args);
   assert(args.size() > 0 && "Invalid model size");
   unsigned lastLayer = args.size() - 1;
   auto &firstArg = args[0];
@@ -275,11 +274,11 @@ void MLIRGenerator::createKernel(bool hasMixedType, bool isQuantKernel) {
   SmallVector<Type, 1> inputTypes{firstArg.input.type};
   if (kernelType == KernelType::Args) {
     for (auto &layer : args) {
-      if (isQuantKernel && quantType == QuantizationType::Dequant)
+      if (quantType == QuantizationType::Dequant)
         inputTypes.push_back(layer.inputScale.type);
 
       inputTypes.push_back(layer.weight.type);
-      if (isQuantKernel && quantType == QuantizationType::Dequant)
+      if (quantType == QuantizationType::Dequant)
         inputTypes.push_back(layer.weightScale.type);
 
       if (enableBias)
@@ -297,13 +296,12 @@ void MLIRGenerator::createKernel(bool hasMixedType, bool isQuantKernel) {
   //   * Layer: input/weights/bias/output = args
   firstArg.input.value = func.getArgument(0);
   // Scales are only needed for dequantization
-  if (isQuantKernel && quantType == QuantizationType::Dequant)
+  if (quantType == QuantizationType::Dequant)
     firstArg.inputScale.value = func.getArgument(1);
 
   // Argument position is input + N * { weight/bias } + output
   // First weight is at position 1, every two
-  unsigned argPos =
-      !(isQuantKernel && quantType == QuantizationType::Dequant) ? 1 : 2;
+  unsigned argPos = !(quantType == QuantizationType::Dequant) ? 1 : 2;
   // Caches the output to chain into the next layer's input
   Value lastOutput;
   for (auto &arg : args) {
@@ -314,7 +312,7 @@ void MLIRGenerator::createKernel(bool hasMixedType, bool isQuantKernel) {
     // Initialize weights and biases
     if (kernelType == KernelType::Args) {
       arg.weight.value = func.getArgument(argPos++);
-      if (isQuantKernel && quantType == QuantizationType::Dequant)
+      if (quantType == QuantizationType::Dequant)
         arg.weightScale.value = func.getArgument(argPos++);
       if (enableBias)
         arg.bias.value = func.getArgument(argPos++);
@@ -341,7 +339,7 @@ void MLIRGenerator::createKernel(bool hasMixedType, bool isQuantKernel) {
     // Now pass the input through all layers.Separated the quantization layer
     // creation to simplify the design and reduce code complxity as there will
     // be more ways to introduce quantization ops in the future.
-    if (isQuantKernel)
+    if (quantType != QuantizationType::None)
       lastOutput = createQuantLayer(arg);
     else
       lastOutput = createLayer(arg, hasMixedType);
@@ -351,10 +349,9 @@ void MLIRGenerator::createKernel(bool hasMixedType, bool isQuantKernel) {
   builder.create<func::ReturnOp>(loc, lastArg.output.value);
 }
 
-int MLIRGenerator::generate(StringRef filename, bool hasMixedType,
-                            bool isQuantKernel) {
+int MLIRGenerator::generate(StringRef filename, bool hasMixedType) {
   // First, populate the module with all functions
-  createKernel(hasMixedType, isQuantKernel);
+  createKernel(hasMixedType);
 
   // Verify
   if (failed(module.verify())) {
@@ -1025,15 +1022,14 @@ Value MLIRGenerator::lowerSoftmax(Value input, Value output) {
   return softmax;
 }
 
-TensorType MLIRGenerator::getShape(ArrayRef<int64_t> dims, PackingType type,
-                                   bool isQuantKernel) {
+TensorType MLIRGenerator::getShape(ArrayRef<int64_t> dims, PackingType type) {
   // Already packed type, just return ND tensor
   if (dims.size() > 2)
     return RankedTensorType::get(dims, type == PACK_OUTPUT ? dataTypes[1]
                                                            : dataTypes[0]);
 
   if (!tiles.size()) {
-    if (isQuantKernel) {
+    if (quantType != QuantizationType::None) {
       if (type == INPUT_SCALE || type == WEIGHT_SCALE) {
         return RankedTensorType::get(dims, dataTypes[2]);
       } else if (type == PACK_OUTPUT) {
diff --git a/tools/mlir-gen/MLIRGen.h b/tools/mlir-gen/MLIRGen.h
@@ -121,8 +121,7 @@ class MLIRGenerator {
   };
 
   /// Return shaped type (packed if requested)
-  TensorType getShape(ArrayRef<int64_t>, PackingType,
-                      bool isQuantKernel = false);
+  TensorType getShape(ArrayRef<int64_t>, PackingType);
 
   /// Return a zero-init tensor for matmul outputs
   Value getZeroInitTensor(TensorType);
@@ -242,7 +241,7 @@ class MLIRGenerator {
 
   /// Creates the kernel types from layer definitions and options. Boolean
   /// indicates if mixed type (quantization) is used.
-  void getKernelTypes(KernelArgs &, bool isQuantKernel = false);
+  void getKernelTypes(KernelArgs &);
 
   /// Creates a layer function, to be called by the kernel. Boolean indicates
   /// if mixed type (quantization) is used.
@@ -254,7 +253,7 @@ class MLIRGenerator {
   /// Creates a kernel (N * {GEMM + AddBias + ReLU} + Softmax)
   /// AddBias, ReLU and Softmax are optional. Boolean indicates if mixed type
   /// (quantization) is used.
-  void createKernel(bool hasMixedType = false, bool isQuantKernel = false);
+  void createKernel(bool hasMixedType = false);
 
 public:
   /// Creates a specific module. Different configurations need different modules
@@ -267,10 +266,8 @@ class MLIRGenerator {
 
   /// Generates the whole IR and write to file
   /// Return 0 on success, 1 on failure. 'hasMixedType' indicates simple mixed
-  /// type without quant. 'isQuantKernel' indicates a quantization kernel with
-  /// quant/dequant ops
-  int generate(StringRef filename, bool hasMixedType = false,
-               bool isQuantKernel = false);
+  /// type without quant.
+  int generate(StringRef filename, bool hasMixedType = false);
 };
 
 } // namespace mlir
diff --git a/tools/mlir-gen/mlir-gen.cpp b/tools/mlir-gen/mlir-gen.cpp