xlite-dev
diff --git a/Diff for: ‎README.md
+6-5 b/Diff for: ‎README.md
+6-5
diff --git a/Diff for: ‎kernels/hgemm/cutlass/hgemm_mma_stage_tn_cute.cu
+3-3 b/Diff for: ‎kernels/hgemm/cutlass/hgemm_mma_stage_tn_cute.cu
+3-3
diff --git a/Diff for: ‎kernels/hgemm/makefile
+58-6 b/Diff for: ‎kernels/hgemm/makefile
+58-6
diff --git a/Diff for: ‎kernels/hgemm/mma/basic/.gitignore
+32 b/Diff for: ‎kernels/hgemm/mma/basic/.gitignore
+32
diff --git a/Diff for: ‎kernels/hgemm/mma/hgemm_mma.cu renamed to ‎kernels/hgemm/mma/basic/hgemm_mma.cu b/Diff for: ‎kernels/hgemm/mma/hgemm_mma.cu renamed to ‎kernels/hgemm/mma/basic/hgemm_mma.cu
diff --git a/Diff for: ‎kernels/hgemm/mma/hgemm_mma_stage.cu renamed to ‎kernels/hgemm/mma/basic/hgemm_mma_stage.cu
+7-7 b/Diff for: ‎kernels/hgemm/mma/hgemm_mma_stage.cu renamed to ‎kernels/hgemm/mma/basic/hgemm_mma_stage.cu
+7-7
diff --git a/Diff for: ‎kernels/hgemm/mma/hgemm_mma_stage_tn.cu renamed to ‎kernels/hgemm/mma/basic/hgemm_mma_stage_tn.cu
+142-5 b/Diff for: ‎kernels/hgemm/mma/hgemm_mma_stage_tn.cu renamed to ‎kernels/hgemm/mma/basic/hgemm_mma_stage_tn.cu
+142-5
@@ -306,11 +306,12 @@ The kernels listed here will guide you through a step-by-step progression, rangi
 | ✔️ [hgemm_wmma_m32n8k16....dbuf*](./kernels/hgemm/wmma/hgemm_wmma.cu)|f16|f16|[link](./kernels/hgemm/)|⭐️⭐️⭐️|  
 | ✔️ [hgemm_wmma_m16n16k16...stages*](./kernels/hgemm/wmma/hgemm_wmma_stage.cu)|f16|f16|[link](./kernels/hgemm/)|⭐️⭐️⭐️|  
 | ✔️ [hgemm_wmma_m16n16k16...swizzle*](./kernels/hgemm/wmma/hgemm_wmma_stage.cu)|f16|f16|[link](./kernels/hgemm/)|⭐️⭐️⭐️|  
-| ✔️ [hgemm_mma_m16n8k16...naive*](./kernels/hgemm/mma/hgemm_mma.cu)|f16|f16|[link](./kernels/hgemm/)|⭐️⭐️⭐️|  
-| ✔️ [hgemm_mma_m16n8k16...mma2x4*](./kernels/hgemm/mma/hgemm_mma.cu)|f16|f16|[link](./kernels/hgemm/)|⭐️⭐️⭐️|  
-| ✔️ [hgemm_mma_m16n8k16...stages*](./kernels/hgemm/mma/hgemm_mma_stage.cu)|f16|f16|[link](./kernels/hgemm/)|⭐️⭐️⭐️|  
-| ✔️ [hgemm_mma_m16n8k16...swizzle*](./kernels/hgemm/mma/hgemm_mma_stage.cu)|f16|f16|[link](./kernels/hgemm/)|⭐️⭐️⭐️|  
-| ✔️ [hgemm_mma_m16n8k16...swizzle{smem}*](./kernels/hgemm/mma/hgemm_mma_stage_swizzle.cu)|f16|f16|[link](./kernels/hgemm/)|⭐️⭐️⭐️|  
+| ✔️ [hgemm_mma_m16n8k16...naive*](./kernels/hgemm/mma/basic/hgemm_mma.cu)|f16|f16|[link](./kernels/hgemm/)|⭐️⭐️⭐️|  
+| ✔️ [hgemm_mma_m16n8k16...mma2x4*](./kernels/hgemm/mma/basic/hgemm_mma.cu)|f16|f16|[link](./kernels/hgemm/)|⭐️⭐️⭐️|  
+| ✔️ [hgemm_mma_m16n8k16...stages*](./kernels/hgemm/mma/basic/hgemm_mma_stage.cu)|f16|f16|[link](./kernels/hgemm/)|⭐️⭐️⭐️|  
+| ✔️ [hgemm_mma_m16n8k16...swizzle*](./kernels/hgemm/mma/basic/hgemm_mma_stage.cu)|f16|f16|[link](./kernels/hgemm/)|⭐️⭐️⭐️|  
+| ✔️ [hgemm_mma_m16n8k16...swizzle{smem}*](./kernels/hgemm/mma/swizzle/hgemm_mma_stage_swizzle.cu)|f16|f16|[link](./kernels/hgemm/)|⭐️⭐️⭐️|  
+| ✔️ [hgemm_mma_m16n8k16...swizzle{tn}{smem}*](./kernels/hgemm/mma/swizzle/hgemm_mma_stage_tn_swizzle.cu)|f16|f16|[link](./kernels/hgemm/)|⭐️⭐️⭐️|  
 | ✔️ [hgemm_mma_stages_swizzle{smem}...cute*](./kernels/hgemm/cutlass/hgemm_mma_stage_tn_cute.cu)|f16|f16|[link](./kernels/hgemm/)|⭐️⭐️⭐️|  
 | ✔️ [hgemm_mma_cublas*](./kernels/hgemm/cublas/hgemm_cublas.cu)|f16|f16|[link](./kernels/hgemm/)|⭐️⭐️|   
 
 
@@ -24,7 +24,7 @@ template <
       typename S2GCopyC,
       const bool BlockSwizzle>
 __global__ void hgemm_mma_stages_block_swizzle_tn_cute_kernel(
-  const T *Aptr, const T *Bptr, T *Dptr, int m, int n, int k) {
+  T *Aptr, T *Bptr, T *Dptr, int m, int n, int k) {
   using namespace cute;
   // Initilize shared memory
   extern __shared__ T shm_data[];
@@ -206,8 +206,8 @@ __global__ void hgemm_mma_stages_block_swizzle_tn_cute_kernel(
 
 // For torch binding, need dynamic block swizzle stride
 template <typename T, const int Stages = 2, const bool BlockSwizzle = false>
-void launch_hgemm_mma_stages_block_swizzle_tn_cute(const T *a, 
-                                                   const T *b, 
+void launch_hgemm_mma_stages_block_swizzle_tn_cute(T *a, 
+                                                   T *b, 
                                                    T *c, 
                                                    int M, 
                                                    int N, 
 
@@ -1,24 +1,76 @@
 INCLUDE_DIRS=-I ./utils -I ../../third-party/cutlass/include -I ../../third-party/cutlass/tools/util/include
 ARCHS=-gencode arch=compute_80,code=sm_80 -gencode arch=compute_89,code=sm_89
+ARCHS_80=-gencode arch=compute_80,code=sm_80
 ARCHS_89=-gencode arch=compute_89,code=sm_89
 DEFAULT_FLAGS=-O2 $(ARCHS) -std=c++17 $(INCLUDE_DIRS) --expt-relaxed-constexpr -lcublas
 DEFAULT_FLAGS_89=-O2 $(ARCHS_89) -std=c++17 $(INCLUDE_DIRS) --expt-relaxed-constexpr -lcublas
+DEFAULT_FLAGS_80=-O2 $(ARCHS_80) -std=c++17 $(INCLUDE_DIRS) --expt-relaxed-constexpr -lcublas
+
+# Default
 default:
 	nvcc cutlass/hgemm_mma_stage_tn_cute.cu -o hgemm_cute.bin $(DEFAULT_FLAGS)
 	nvcc cublas/hgemm_cublas.cu -o hgemm_cublas.bin $(DEFAULT_FLAGS)
-	nvcc mma/hgemm_mma_stage.cu -o hgemm_mma_stage.bin $(DEFAULT_FLAGS)
-	nvcc mma/hgemm_mma_stage_swizzle.cu -o hgemm_mma_stage_swizzle.bin $(DEFAULT_FLAGS)
+	nvcc mma/basic/hgemm_mma_stage.cu -o hgemm_mma_stage.bin $(DEFAULT_FLAGS)
+	nvcc mma/basic/hgemm_mma_stage_tn.cu -o hgemm_mma_stage_tn.bin $(DEFAULT_FLAGS)
+	nvcc mma/swizzle/hgemm_mma_stage_swizzle.cu -o hgemm_mma_stage_swizzle.bin $(DEFAULT_FLAGS)
+	nvcc mma/swizzle/hgemm_mma_stage_tn_swizzle.cu -o hgemm_mma_stage_tn_swizzle.bin $(DEFAULT_FLAGS)
+	nvcc mma/swizzle/hgemm_mma_stage_tn_swizzle_x4.cu -o hgemm_mma_stage_tn_swizzle_x4.bin $(DEFAULT_FLAGS)
+
+# SM 89
 cute_89:
 	nvcc cutlass/hgemm_mma_stage_tn_cute.cu -o hgemm_cute.89.bin $(DEFAULT_FLAGS_89)
 cute_89_debug:
 	nvcc cutlass/hgemm_mma_stage_tn_cute.cu -o hgemm_cute.89.debug.bin $(DEFAULT_FLAGS_89) -DCUTE_HGEMM_DEBUG -Xcompiler "-Wno-format"
+# SM 89 NN debug
 mma_89:
-	nvcc mma/hgemm_mma_stage.cu -o hgemm_mma_stage.89.bin $(DEFAULT_FLAGS_89)
+	nvcc mma/basic/hgemm_mma_stage.cu -o hgemm_mma_stage.89.bin $(DEFAULT_FLAGS_89)
 mma_89_debug:
-	nvcc mma/hgemm_mma_stage.cu -o hgemm_mma_stage.89.debug.bin $(DEFAULT_FLAGS_89) -DHGEMM_MMA_DEBUG
+	nvcc mma/basic/hgemm_mma_stage.cu -o hgemm_mma_stage.89.debug.bin $(DEFAULT_FLAGS_89) -DHGEMM_MMA_DEBUG
 mma_89_swizzle:
-	nvcc mma/hgemm_mma_stage_swizzle.cu -o hgemm_mma_stage_swizzle.89.bin $(DEFAULT_FLAGS_89)
+	nvcc mma/swizzle/hgemm_mma_stage_swizzle.cu -o hgemm_mma_stage_swizzle.89.bin $(DEFAULT_FLAGS_89)
 mma_89_swizzle_debug:
-	nvcc mma/hgemm_mma_stage_swizzle.cu -o hgemm_mma_stage_swizzle.89.debug.bin $(DEFAULT_FLAGS_89) -DHGEMM_MMA_DEBUG
+	nvcc mma/swizzle/hgemm_mma_stage_swizzle.cu -o hgemm_mma_stage_swizzle.89.debug.bin $(DEFAULT_FLAGS_89) -DHGEMM_MMA_DEBUG
+# SM 89  TN debug
+mma_tn_89:
+	nvcc mma/basic/hgemm_mma_stage_tn.cu -o hgemm_mma_tn_stage.89.bin $(DEFAULT_FLAGS_89)
+mma_tn_89_debug:
+	nvcc mma/basic/hgemm_mma_stage_tn.cu -o hgemm_mma_tn_stage.89.debug.bin $(DEFAULT_FLAGS_89) -DHGEMM_MMA_DEBUG
+mma_tn_89_swizzle:
+	nvcc mma/swizzle/hgemm_mma_stage_tn_swizzle.cu -o hgemm_mma_stage_tn_swizzle.89.bin $(DEFAULT_FLAGS_89)
+mma_tn_89_swizzle_debug:
+	nvcc mma/swizzle/hgemm_mma_stage_tn_swizzle.cu -o hgemm_mma_stage_tn_swizzle.89.debug.bin $(DEFAULT_FLAGS_89) -DHGEMM_MMA_DEBUG
+mma_tn_89_swizzle_x4:
+	nvcc mma/swizzle/hgemm_mma_stage_tn_swizzle_x4.cu -o hgemm_mma_stage_tn_swizzle_x4.89.bin $(DEFAULT_FLAGS_89)
+mma_tn_89_swizzle_x4_debug:
+	nvcc mma/swizzle/hgemm_mma_stage_tn_swizzle_x4.cu -o hgemm_mma_stage_tn_swizzle_x4.89.debug.bin $(DEFAULT_FLAGS_89) -DHGEMM_MMA_DEBUG
+
+# SM 80
+cute_80:
+	nvcc cutlass/hgemm_mma_stage_tn_cute.cu -o hgemm_cute.80.bin $(DEFAULT_FLAGS_80)
+cute_80_debug:
+	nvcc cutlass/hgemm_mma_stage_tn_cute.cu -o hgemm_cute.80.debug.bin $(DEFAULT_FLAGS_80) -DCUTE_HGEMM_DEBUG -Xcompiler "-Wno-format"
+# SM 80 TN debug
+mma_80:
+	nvcc mma/basic/hgemm_mma_stage.cu -o hgemm_mma_stage.80.bin $(DEFAULT_FLAGS_80)
+mma_80_debug:
+	nvcc mma/basic/hgemm_mma_stage.cu -o hgemm_mma_stage.80.debug.bin $(DEFAULT_FLAGS_80) -DHGEMM_MMA_DEBUG
+mma_80_swizzle:
+	nvcc mma/swizzle/hgemm_mma_stage_swizzle.cu -o hgemm_mma_stage_swizzle.80.bin $(DEFAULT_FLAGS_80)
+mma_80_swizzle_debug:
+	nvcc mma/swizzle/hgemm_mma_stage_swizzle.cu -o hgemm_mma_stage_swizzle.80.debug.bin $(DEFAULT_FLAGS_80) -DHGEMM_MMA_DEBUG
+# SM 80 TN debug
+mma_tn_80:
+	nvcc mma/basic/hgemm_mma_stage_tn.cu -o hgemm_mma_tn_stage.80.bin $(DEFAULT_FLAGS_80)
+mma_tn_80_debug:
+	nvcc mma/basic/hgemm_mma_stage_tn.cu -o hgemm_mma_tn_stage.80.debug.bin $(DEFAULT_FLAGS_80) -DHGEMM_MMA_DEBUG
+mma_tn_80_swizzle:
+	nvcc mma/swizzle/hgemm_mma_stage_tn_swizzle.cu -o hgemm_mma_stage_tn_swizzle.80.bin $(DEFAULT_FLAGS_80)
+mma_tn_80_swizzle_debug:
+	nvcc mma/swizzle/hgemm_mma_stage_tn_swizzle.cu -o hgemm_mma_stage_tn_swizzle.80.debug.bin $(DEFAULT_FLAGS_80) -DHGEMM_MMA_DEBUG
+mma_tn_80_swizzle_x4:
+	nvcc mma/swizzle/hgemm_mma_stage_tn_swizzle_x4.cu -o hgemm_mma_stage_tn_swizzle_x4.80.bin $(DEFAULT_FLAGS_80)
+mma_tn_80_swizzle_x4_debug:
+	nvcc mma/swizzle/hgemm_mma_stage_tn_swizzle_x4.cu -o hgemm_mma_stage_tn_swizzle_x4.80.debug.bin $(DEFAULT_FLAGS_80) -DHGEMM_MMA_DEBUG
+
 clean:
 	rm -rf *.bin
@@ -0,0 +1,32 @@
+*.so
+*.a
+*.dylib
+*.dll
+*.lib
+.DS_Store
+build
+*.whl
+tmp
+__pycache__
+*.onnx
+*.engine
+*.pt
+*.pth
+*.nsys*
+*.ncu*
+*.sqlite*
+*.engine
+*.bin
+*.out
+*bin
+bin
+output
+*.egg-info
+*.whl
+dist
+*.pdf
+*.tex
+*.log
+*.md5
+*.aux*
+*.dpth
@@ -1965,7 +1965,7 @@ hgemm_mma_m16n8k16_mma2x4_warp4x4x2_stages_dsmem_rr_kernel(
 // 128x128, mma2x4, warp4x4x2(64,32,32), stages, block swizzle, dsmem, reg double buffers
 template <const int K_STAGE = 2, const int BLOCK_SWIZZLE_STRIDE = 2048>
 void lanunch_hgemm_mma_m16n8k16_nn(
-  const half* a, const half* b, half* c, int M, int N, int K) {
+  half* a, half* b, half* c, int M, int N, int K) {
   constexpr int MMA_M = 16;
   constexpr int MMA_N = 8;
   constexpr int MMA_K = 16;
@@ -2167,9 +2167,9 @@ void hgemm_mma_m16n8k16_mma2x4_warp4x4_stages(
     case 4: // ~34KB
       LAUNCH_16816_STAGE_SWIZZLE_MMA2x4_WARP4x4_KERNEL(4, swizzle_stride);
       break;
-    case 5: // ~43KB
-      LAUNCH_16816_STAGE_SWIZZLE_MMA2x4_WARP4x4_KERNEL(5, swizzle_stride);
-      break;
+    // case 5: // ~43KB
+    //   LAUNCH_16816_STAGE_SWIZZLE_MMA2x4_WARP4x4_KERNEL(5, swizzle_stride);
+    //   break;
     default:
       LAUNCH_16816_STAGE_SWIZZLE_MMA2x4_WARP4x4_KERNEL(2, swizzle_stride);
       break;
@@ -2186,9 +2186,9 @@ void hgemm_mma_m16n8k16_mma2x4_warp4x4_stages(
     case 4:
       LAUNCH_16816_STAGE_NO_SWIZZLE_MMA2x4_WARP4x4_KERNEL(4);
       break;
-    case 5:
-      LAUNCH_16816_STAGE_NO_SWIZZLE_MMA2x4_WARP4x4_KERNEL(5);
-      break;
+    // case 5:
+    //   LAUNCH_16816_STAGE_NO_SWIZZLE_MMA2x4_WARP4x4_KERNEL(5);
+    //   break;
     default:
       LAUNCH_16816_STAGE_NO_SWIZZLE_MMA2x4_WARP4x4_KERNEL(2);
       break;
 
@@ -8,8 +8,6 @@
 #include <cuda_bf16.h>
 #include <cuda_fp8.h>
 #include <mma.h>
-#include <torch/types.h>
-#include <torch/extension.h>
 using namespace nvcuda;
 
 #define WARP_SIZE 32
@@ -251,8 +249,8 @@ hgemm_mma_m16n8k16_mma2x4_warp4x4_stages_dsmem_tn_kernel(
         int lane_smem_b_k = ((lane_id / 8) % 2) * 8; // 0,8
         uint32_t lane_smem_b_ptr = (
           smem_b_base_ptr + (stage_sel * s_b_stage_offset + 
-                            lane_smem_b_n * (BK + B_PAD) + 
-                            lane_smem_b_k) * sizeof(half)
+                             lane_smem_b_n * (BK + B_PAD) + 
+                             lane_smem_b_k) * sizeof(half)
         );
         LDMATRIX_X2(RB[j][0], RB[j][1], lane_smem_b_ptr);
       }
@@ -309,7 +307,144 @@ hgemm_mma_m16n8k16_mma2x4_warp4x4_stages_dsmem_tn_kernel(
   }
 }
 
+// build cpp binary
+#ifndef NO_MMA_HGEMM_BIN
+
+#include "utils.h"
+
+// 128x128, mma2x4, warp4x4(64,32,16), stages, block swizzle, dsmem, TN
+#define LAUNCH_16816_STAGE_SWIZZLE_MMA2x4_WARP4x4_DSMEM_TN_KERNEL(stages, stride)   \
+{                                                                                   \
+  const int smem_max_size = (                                                       \
+    (stages) * BM * (BK + A_PAD) * sizeof(half) +                                   \
+    (stages) * BN * (BK + B_PAD) * sizeof(half));                                   \
+  cudaFuncSetAttribute(                                                             \
+    hgemm_mma_m16n8k16_mma2x4_warp4x4_stages_dsmem_tn_kernel<                       \
+      MMA_M, MMA_N, MMA_K, MMA_TILE_M, MMA_TILE_N,                                  \
+      WARP_TILE_M, WARP_TILE_N, A_PAD, B_PAD, (stages), true>,                      \
+    cudaFuncAttributeMaxDynamicSharedMemorySize,                                    \
+    98304);                                                                         \
+  const int N_SWIZZLE = (N + (stride) - 1) / (stride);                              \
+  dim3 block(NUM_THREADS);                                                          \
+  dim3 grid((div_ceil(N, BN) + N_SWIZZLE - 1) / N_SWIZZLE,                          \
+             div_ceil(M, BM),                                                       \
+             N_SWIZZLE);                                                            \
+  hgemm_mma_m16n8k16_mma2x4_warp4x4_stages_dsmem_tn_kernel<                         \
+    MMA_M, MMA_N, MMA_K, MMA_TILE_M, MMA_TILE_N,                                    \
+    WARP_TILE_M, WARP_TILE_N, A_PAD, B_PAD, (stages), true><<<                      \
+    grid, block, smem_max_size>>>(                                                  \
+    a, b, c,                                                                        \
+    M, N, K                                                                         \
+  );                                                                                \
+}
+
+template <const int K_STAGE = 2, const int BLOCK_SWIZZLE_STRIDE = 2048>
+void lanunch_hgemm_mma_m16n8k16_tn(
+  half* a, half* b, half* c, int M, int N, int K) {
+  constexpr int MMA_M = 16;
+  constexpr int MMA_N = 8;
+  constexpr int MMA_K = 16;
+  constexpr int MMA_TILE_M = 2;
+  constexpr int MMA_TILE_N = 4; 
+  constexpr int WARP_TILE_M = 4;
+  constexpr int WARP_TILE_N = 4;
+  constexpr int A_PAD = 0; 
+  constexpr int B_PAD = 0; 
+  constexpr int NUM_THREADS= (
+    MMA_TILE_M * MMA_TILE_N * WARP_SIZE); // 2 * 4 * 32 = 256
+  constexpr int BM = MMA_M * MMA_TILE_M * WARP_TILE_M;    
+  constexpr int BN = MMA_N * MMA_TILE_N * WARP_TILE_N;    
+  constexpr int BK = MMA_K;   
+  // s2: 2*128*(32)*2=16KB, 2*32*(128+16)*2=18KB, ~35KB
+  // s3: 3*128*(32)*2=24KB, 3*32*(128+16)*2=27KB, ~51KB
+  // s4: 4*128*(32)*2=32KB, 4*32*(128+16)*2=36KB, ~68KB                            
+  // s5: 5*128*(32)*2=40KB, 5*32*(128+16)*2=45KB, ~85KB    
+  LAUNCH_16816_STAGE_SWIZZLE_MMA2x4_WARP4x4_DSMEM_TN_KERNEL(
+    K_STAGE, BLOCK_SWIZZLE_STRIDE);
+}
+
+#ifdef HGEMM_MMA_DEBUG  
+#include <iostream>
+#endif
+
+
+int main(int argc, char *argv[]) {
+#ifdef HGEMM_MMA_DEBUG  
+  const int test_num = 1;
+#else
+  const int test_num = 64;
+#endif
+  int M_list[test_num];
+  int N_list[test_num];
+  int K_list[test_num];
+  
+  for (int i = 0; i < test_num; i++) {
+    M_list[i] = (i + 1) * 256;
+    N_list[i] = (i + 1) * 256;
+    K_list[i] = (i + 1) * 256;
+  }
+  
+#ifdef HGEMM_MMA_DEBUG  
+  if (argc > 1) M_list[0] = std::stoi(argv[1]);
+  if (argc > 2) N_list[0] = std::stoi(argv[2]);
+  if (argc > 3) K_list[0] = std::stoi(argv[3]);
+#endif
+  
+#ifdef HGEMM_MMA_DEBUG  
+  int outer_repeat = 1, inner_repeat = 1, warmup = 1;
+  if (argc > 4) warmup = std::stoi(argv[4]);
+  if (argc > 5) inner_repeat = std::stoi(argv[5]);
+#else
+  int outer_repeat = 10, inner_repeat = 1, warmup = 1;
+#endif
+  
+  printf("ALGO = MMA16816 HGEMM TN MMA=2x4 WARP=4x4 STAGES=2 BLOCK SWIZZLE=2048\n");
+#ifndef HGEMM_MMA_DEBUG  
+  for (int j = 0; j < 5; j++) {
+    int M = M_list[j], N = N_list[j], K = K_list[j];
+    float max_error = gemm_error_check_tn<half>(
+      lanunch_hgemm_mma_m16n8k16_tn<2, 2048>, 
+      M, N, K);
+    printf("M N K = %6d %6d %6d, ", M, N, K);
+    printf("Max Error = %f\n", max_error);
+  }
+#endif
+  
+  for (int j = 0; j < test_num; j++) {
+    int M = M_list[j], N = N_list[j], K = K_list[j];
+   
+    double max_sec = 0.0;
+    double min_sec = DBL_MAX;
+    double total_sec = 0.0;
+  
+    for (int k = 0; k < outer_repeat; k++) {
+      double this_sec = perf_gemm<half>(
+        lanunch_hgemm_mma_m16n8k16_tn<2, 2048>, 
+        M, N, K, inner_repeat, warmup);
+      max_sec = max(max_sec, this_sec);
+      min_sec = min(min_sec, this_sec);
+      total_sec += this_sec;
+    }
+      
+    // 1 TFLOPS = 10^12 FLOPS
+    // ref: https://imgtec.eetrend.com/blog/2021/100062210.html.
+    double avg_sec = total_sec / outer_repeat;
+    double avg_Tflops = ((double)M) * N * K * 2 * 1e-12 / avg_sec;
+  
+    printf("M N K = %6d %6d %6d, W = %1d, R = %2d ", M, N, K, warmup, inner_repeat);
+    printf("Time = %12.8lf %12.8lf %12.8lf s, ", min_sec, avg_sec, max_sec);
+    printf("AVG Performance = %10.4lf Tflops\n", avg_Tflops);
+  }
+  
+  return 0;
+}
+  
+
+#else
+
 // --------------------- PyTorch bindings for custom kernel -----------------------
+#include <torch/types.h>
+#include <torch/extension.h>
 #define STRINGFY(str) #str
 #define TORCH_BINDING_COMMON_EXTENSION(func)   \
   m.def(STRINGFY(func), &func, STRINGFY(func));
@@ -398,7 +533,7 @@ void hgemm_mma_m16n8k16_mma2x4_warp4x4_stages_dsmem_tn(
   constexpr int WARP_TILE_M = 4;
   constexpr int WARP_TILE_N = 4;
   constexpr int A_PAD = 0; // 0,8,16
-  constexpr int B_PAD = 0; // 0,8,16
+  constexpr int B_PAD = 8; // 0,8,16
   constexpr int NUM_THREADS= (
     MMA_TILE_M * MMA_TILE_N * WARP_SIZE); // 2 * 4 * 32 = 256
   constexpr int BM = MMA_M * MMA_TILE_M * WARP_TILE_M;    
@@ -446,3 +581,5 @@ void hgemm_mma_m16n8k16_mma2x4_warp4x4_stages_dsmem_tn(
     }
   }
 }
+
+#endif