meta-pytorch
diff --git a/‎CMakeLists.txt‎
Lines changed: 1 addition & 0 deletions b/‎CMakeLists.txt‎
Lines changed: 1 addition & 0 deletions
diff --git a/‎MslkDefault.cmake‎
Lines changed: 4 additions & 2 deletions b/‎MslkDefault.cmake‎
Lines changed: 4 additions & 2 deletions
diff --git a/‎csrc/attention/ck/fmha/hip_fmha/GENERATE_INSTANCES.md‎
Lines changed: 1 addition & 0 deletions b/‎csrc/attention/ck/fmha/hip_fmha/GENERATE_INSTANCES.md‎
Lines changed: 1 addition & 0 deletions
diff --git a/‎…/attention_backward_generic_ck_tiled.hip‎ ‎…/attention_backward_generic_ck_tiled.cpp‎csrc/attention/ck/fmha/hip_fmha/attention_backward_generic_ck_tiled.hip renamed to csrc/attention/ck/fmha/hip_fmha/attention_backward_generic_ck_tiled.cpp
Lines changed: 19 additions & 18 deletions b/‎…/attention_backward_generic_ck_tiled.hip‎ ‎…/attention_backward_generic_ck_tiled.cpp‎csrc/attention/ck/fmha/hip_fmha/attention_backward_generic_ck_tiled.hip renamed to csrc/attention/ck/fmha/hip_fmha/attention_backward_generic_ck_tiled.cpp
Lines changed: 19 additions & 18 deletions
diff --git a/‎…a/hip_fmha/attention_ck_rand_uniform.hip‎ ‎…a/hip_fmha/attention_ck_rand_uniform.cpp‎csrc/attention/ck/fmha/hip_fmha/attention_ck_rand_uniform.hip renamed to csrc/attention/ck/fmha/hip_fmha/attention_ck_rand_uniform.cpp
Lines changed: 4 additions & 4 deletions b/‎…a/hip_fmha/attention_ck_rand_uniform.hip‎ ‎…a/hip_fmha/attention_ck_rand_uniform.cpp‎csrc/attention/ck/fmha/hip_fmha/attention_ck_rand_uniform.hip renamed to csrc/attention/ck/fmha/hip_fmha/attention_ck_rand_uniform.cpp
Lines changed: 4 additions & 4 deletions
diff --git a/‎…a/attention_forward_generic_ck_tiled.hip‎ ‎…a/attention_forward_generic_ck_tiled.cpp‎csrc/attention/ck/fmha/hip_fmha/attention_forward_generic_ck_tiled.hip renamed to csrc/attention/ck/fmha/hip_fmha/attention_forward_generic_ck_tiled.cpp
Lines changed: 25 additions & 23 deletions b/‎…a/attention_forward_generic_ck_tiled.hip‎ ‎…a/attention_forward_generic_ck_tiled.cpp‎csrc/attention/ck/fmha/hip_fmha/attention_forward_generic_ck_tiled.hip renamed to csrc/attention/ck/fmha/hip_fmha/attention_forward_generic_ck_tiled.cpp
Lines changed: 25 additions & 23 deletions
diff --git a/‎…ention/ck/fmha/hip_fmha/ck_fmha_test.hip‎ ‎…ention/ck/fmha/hip_fmha/ck_fmha_test.cpp‎csrc/attention/ck/fmha/hip_fmha/ck_fmha_test.hip renamed to csrc/attention/ck/fmha/hip_fmha/ck_fmha_test.cpp b/‎…ention/ck/fmha/hip_fmha/ck_fmha_test.hip‎ ‎…ention/ck/fmha/hip_fmha/ck_fmha_test.cpp‎csrc/attention/ck/fmha/hip_fmha/ck_fmha_test.hip renamed to csrc/attention/ck/fmha/hip_fmha/ck_fmha_test.cpp
diff --git a/‎csrc/attention/ck/fmha/hip_fmha/ck_fmha_util.h‎
Lines changed: 1 addition & 18 deletions b/‎csrc/attention/ck/fmha/hip_fmha/ck_fmha_util.h‎
Lines changed: 1 addition & 18 deletions
diff --git a/‎…/ck_tiled_fmha_batched_backward_bf16.hip‎ ‎…/ck_tiled_fmha_batched_backward_bf16.cpp‎csrc/attention/ck/fmha/hip_fmha/ck_tiled_fmha_batched_backward_bf16.hip renamed to csrc/attention/ck/fmha/hip_fmha/ck_tiled_fmha_batched_backward_bf16.cpp b/‎…/ck_tiled_fmha_batched_backward_bf16.hip‎ ‎…/ck_tiled_fmha_batched_backward_bf16.cpp‎csrc/attention/ck/fmha/hip_fmha/ck_tiled_fmha_batched_backward_bf16.hip renamed to csrc/attention/ck/fmha/hip_fmha/ck_tiled_fmha_batched_backward_bf16.cpp
diff --git a/‎…/ck_tiled_fmha_batched_backward_fp16.hip‎ ‎…/ck_tiled_fmha_batched_backward_fp16.cpp‎csrc/attention/ck/fmha/hip_fmha/ck_tiled_fmha_batched_backward_fp16.hip renamed to csrc/attention/ck/fmha/hip_fmha/ck_tiled_fmha_batched_backward_fp16.cpp b/‎…/ck_tiled_fmha_batched_backward_fp16.hip‎ ‎…/ck_tiled_fmha_batched_backward_fp16.cpp‎csrc/attention/ck/fmha/hip_fmha/ck_tiled_fmha_batched_backward_fp16.hip renamed to csrc/attention/ck/fmha/hip_fmha/ck_tiled_fmha_batched_backward_fp16.cpp
@@ -126,6 +126,7 @@ include(${CMAKEMODULES}/GpuCppLibrary.cmake)
 set(mslk_include_directories
   # MSLK
   ${MSLK}/include
+  ${MSLK}/csrc/attention/ck/fmha/hip_fmha
   # PyTorch
   ${TORCH_INCLUDE_DIRS}
   # Third-party
 
@@ -16,7 +16,8 @@ glob_files_nohip(mslk_cpp_source_files_cpu
   csrc/gemm/*.cpp
   csrc/kv_cache/*.cpp
   csrc/moe/*.cpp
-  csrc/quantize/*.cpp)
+  csrc/quantize/*.cpp
+  csrc/attention/ck/fmha/*.cpp)
 
 glob_files_nohip(mslk_cpp_source_files_gpu
   csrc/attention/cuda/gqa_attn_splitk/*.cu
@@ -79,7 +80,8 @@ file(GLOB_RECURSE mslk_cpp_source_files_hip
   csrc/gemm/ck/*.hip
   csrc/gemm/ck/**/*.hip
   csrc/quantize/ck/*.hip
-  csrc/quantize/ck/**/*.hip)
+  csrc/quantize/ck/**/*.hip
+  csrc/attention/ck/fmha/hip_fmha/**/*.hip)
 
 ################################################################################
 # Build Shared Library
 
@@ -1,3 +1,4 @@
+
 # Instances generator
 
   The instances generator is a simple python tool used to generate several hundred of instances (.cpp files) and their references (.h files).
 
@@ -11,8 +11,9 @@
 #include <ATen/ScalarOps.h>
 #include <ATen/Tensor.h>
 #include <ATen/TensorOperators.h>
-#include <c10/cuda/CUDAGuard.h>
+#include <c10/hip/HIPStream.h>
 #include <torch/library.h>
+#include <ATen/cuda/PhiloxUtils.cuh>
 
 #include "ck_fmha_util.h"
 #include "ck_tiled_fmha_params.h"
@@ -38,26 +39,26 @@ efficient_attention_backward_ck(
     const at::Tensor& query,
     const at::Tensor& key,
     const at::Tensor& value,
-    const std::optional<at::Tensor>& bias, // additive attention bias
+    const c10::optional<at::Tensor>& bias, // additive attention bias
     // (Mode 1MHK only) [b+1]: cu_seqlens_q[b] contains the
     // position of the first query token for batch $b
-    const std::optional<at::Tensor>& seqstart_q,
+    const c10::optional<at::Tensor>& seqstart_q,
     // (Mode 1MHK only) [b+1]: cu_seqlens_k[b] contains the
     // position of the first key token for batch $b
-    const std::optional<at::Tensor>& seqstart_k,
+    const c10::optional<at::Tensor>& seqstart_k,
     // (Mode 1MHK only) Maximum sequence length across batches
-    const std::optional<int64_t> max_seqlen_q_,
+    const c10::optional<int64_t> max_seqlen_q_,
     // (Mode 1MHK only) Maximum sequence length across batches
-    const std::optional<int64_t> max_seqlen_k_,
-    const std::optional<at::Tensor>& seqlen_k,
+    const c10::optional<int64_t> max_seqlen_k_,
+    const c10::optional<at::Tensor>& seqlen_k,
     const at::Tensor& logsumexp,
     const at::Tensor& out,
     double dropout_p, // dropout probability
     int64_t rng_seed, // seed using for generating random numbers for dropout
     int64_t rng_offset, // offset into random number sequence
     int64_t custom_mask_type,
-    const std::optional<double> scale,
-    const std::optional<int64_t> window_size) {
+    const c10::optional<double> scale,
+    const c10::optional<int64_t> window_size) {
   // ndim
   TORCH_CHECK(query.dim() == grad_out.dim());
   TORCH_CHECK(query.dim() == key.dim());
@@ -111,7 +112,7 @@ efficient_attention_backward_ck(
     TORCH_CHECK(max_seqlen_k_.has_value());
   }
 
-  hipStream_t stream = at::hip::getCurrentHIPStream().stream();
+  hipStream_t stream = c10::hip::getCurrentHIPStream().stream();
 
   int64_t B = query.size(0);
   int64_t M = query.size(1);
@@ -550,26 +551,26 @@ efficient_attention_backward_ck_meta(
     const at::Tensor& query,
     const at::Tensor& key,
     const at::Tensor& value,
-    const std::optional<at::Tensor>& bias, // additive attention bias
+    const c10::optional<at::Tensor>& bias, // additive attention bias
     // (Mode 1MHK only) [b+1]: cu_seqlens_q[b] contains the
     // position of the first query token for batch $b
-    const std::optional<at::Tensor>& seqstart_q,
+    const c10::optional<at::Tensor>& seqstart_q,
     // (Mode 1MHK only) [b+1]: cu_seqlens_k[b] contains the
     // position of the first key token for batch $b
-    const std::optional<at::Tensor>& seqstart_k,
+    const c10::optional<at::Tensor>& seqstart_k,
     // (Mode 1MHK only) Maximum sequence length across batches
-    const std::optional<int64_t> max_seqlen_q_,
+    const c10::optional<int64_t> max_seqlen_q_,
     // (Mode 1MHK only) Maximum sequence length across batches
-    const std::optional<int64_t> max_seqlen_k_,
-    const std::optional<at::Tensor>& seqlen_k,
+    const c10::optional<int64_t> max_seqlen_k_,
+    const c10::optional<at::Tensor>& seqlen_k,
     const at::Tensor& logsumexp,
     const at::Tensor& out,
     double dropout_p, // dropout probability
     int64_t rng_seed, // seed using for generating random numbers for dropout
     int64_t rng_offset, // offset into random number sequence
     int64_t custom_mask_type,
-    const std::optional<double> scale,
-    const std::optional<int64_t> window_size) {
+    const c10::optional<double> scale,
+    const c10::optional<int64_t> window_size) {
   int64_t B = query.size(0);
   int64_t M = query.size(1);
   int64_t N = key.size(1);
 
@@ -6,12 +6,12 @@
  * LICENSE file in the root directory of this source tree.
  */
 #include <ATen/ATen.h>
-#include <ATen/cuda/CUDAContext.h>
 #include <ATen/cuda/CUDAGeneratorImpl.h>
 #include <c10/core/TensorOptions.h>
+#include <c10/hip/HIPStream.h>
 #include <torch/library.h>
 #include <torch/types.h>
-#include <ATen/cuda/CUDAGraphsUtils.cuh>
+#include <ATen/cuda/PhiloxUtils.cuh>
 
 #include <ck_tile/core.hpp>
 #include <ck_tile/host/kernel_launch.hpp>
@@ -33,11 +33,11 @@ at::Tensor rand_uniform_int(
   int M = out_pattern.size(2);
   int N = out_pattern.size(3);
 
-  hipStream_t stream = at::hip::getCurrentHIPStream().stream();
+  hipStream_t stream = c10::hip::getCurrentHIPStream().stream();
 
   at::CUDAGeneratorImpl* gen =
       at::get_generator_or_default<at::CUDAGeneratorImpl>(
-          std::nullopt, at::cuda::detail::getDefaultCUDAGenerator());
+          c10::nullopt, at::cuda::detail::getDefaultCUDAGenerator());
 
   at::PhiloxCudaState rng_engine_inputs;
   {
 
@@ -12,12 +12,11 @@
 #include <ATen/ScalarOps.h>
 #include <ATen/Tensor.h>
 #include <ATen/core/Generator.h>
-#include <ATen/cuda/CUDAContext.h>
 #include <ATen/cuda/CUDAGeneratorImpl.h>
-#include <c10/cuda/CUDAGuard.h>
+#include <c10/hip/HIPStream.h>
 #include <c10/util/Optional.h>
 #include <torch/library.h>
-#include <ATen/cuda/CUDAGraphsUtils.cuh>
+#include <ATen/cuda/PhiloxUtils.cuh>
 
 #include "ck_fmha_util.h"
 #include "ck_tiled_fmha_fwd_splitkv_selector.h"
@@ -53,23 +52,23 @@ efficient_attention_forward_ck(
     const at::Tensor& query, // [b, seqlen, num_heads_q, K]
     const at::Tensor& key, // [b, seqlen, num_heads_kv, K]
     const at::Tensor& value, // [b, seqlen, num_heads_kv, Kv]
-    const std::optional<at::Tensor>& bias, // [b, num_heads_q, seqlen, seqlen]
+    const c10::optional<at::Tensor>& bias, // [b, num_heads_q, seqlen, seqlen]
     // (Mode 1MHK only) [b+1]: cu_seqlens_q[b] contains the
     // position of the first query token for batch $b
-    const std::optional<at::Tensor>& seqstart_q,
+    const c10::optional<at::Tensor>& seqstart_q,
     // (Mode 1MHK only) [b+1]: cu_seqlen_k[b] contains the
     // position of the first key token for batch $b
-    const std::optional<at::Tensor>& seqstart_k,
+    const c10::optional<at::Tensor>& seqstart_k,
     // (Mode 1MHK only) Maximum sequence length across batches
-    const std::optional<int64_t> max_seqlen_q_,
+    const c10::optional<int64_t> max_seqlen_q_,
     double dropout_p, // attention matrix dropout probability
     bool compute_logsumexp,
     int64_t custom_mask_type,
-    std::optional<double> scale,
-    const std::optional<at::Tensor>& seqlen_k,
-    const std::optional<int64_t> window_size,
-    const std::optional<at::Tensor>& block_tables,
-    const std::optional<int64_t> page_size) {
+    c10::optional<double> scale,
+    const c10::optional<at::Tensor>& seqlen_k,
+    const c10::optional<int64_t> window_size,
+    const c10::optional<at::Tensor>& block_tables,
+    const c10::optional<int64_t> page_size) {
   TORCH_CHECK(query.dim() == 4);
   TORCH_CHECK(key.dim() == 4);
   TORCH_CHECK(value.dim() == 4);
@@ -116,7 +115,7 @@ efficient_attention_forward_ck(
   CHECK_NOSPARSE_LASTCONTIGUOUS_CUDA(key);
   CHECK_NOSPARSE_LASTCONTIGUOUS_CUDA(value);
 
-  hipStream_t stream = at::hip::getCurrentHIPStream().stream();
+  hipStream_t stream = c10::hip::getCurrentHIPStream().stream();
 
   int64_t B = query.size(0);
   int64_t M = query.size(1);
@@ -143,7 +142,7 @@ efficient_attention_forward_ck(
     at::PhiloxCudaState rng_engine_inputs;
     at::CUDAGeneratorImpl* gen =
         at::get_generator_or_default<at::CUDAGeneratorImpl>(
-            std::nullopt, at::cuda::detail::getDefaultCUDAGenerator());
+            c10::nullopt, at::cuda::detail::getDefaultCUDAGenerator());
 
     std::lock_guard<std::mutex> lock(gen->mutex_);
     // if using dropout, we produce 1 random number for each element of the
@@ -478,26 +477,29 @@ efficient_attention_forward_ck_meta(
     const at::Tensor& query, // [b, seqlen, num_heads_q, K]
     const at::Tensor& key, // [b, seqlen, num_heads_kv, K]
     const at::Tensor& value, // [b, seqlen, num_heads_kv, Kv]
-    const std::optional<at::Tensor>& bias, // [b, num_heads_q, seqlen, seqlen]
+    const c10::optional<at::Tensor>& bias, // [b, num_heads_q, seqlen, seqlen]
     // (Mode 1MHK only) [b+1]: cu_seqlens_q[b] contains the
     // position of the first query token for batch $b
-    const std::optional<at::Tensor>& seqstart_q,
+    const c10::optional<at::Tensor>& seqstart_q,
     // (Mode 1MHK only) [b+1]: cu_seqlen_k[b] contains the
     // position of the first key token for batch $b
-    const std::optional<at::Tensor>& seqstart_k,
+    const c10::optional<at::Tensor>& seqstart_k,
     // (Mode 1MHK only) Maximum sequence length across batches
-    const std::optional<int64_t> max_seqlen_q_,
+    const c10::optional<int64_t> max_seqlen_q_,
     double dropout_p, // attention matrix dropout probability
     bool compute_logsumexp,
     int64_t custom_mask_type,
-    std::optional<double> scale,
-    const std::optional<at::Tensor>& seqlen_k,
-    const std::optional<int64_t> window_size,
-    const std::optional<at::Tensor>& block_tables,
-    const std::optional<int64_t> page_size) {
+    c10::optional<double> scale,
+    const c10::optional<at::Tensor>& seqlen_k,
+    const c10::optional<int64_t> window_size,
+    const c10::optional<at::Tensor>& block_tables,
+    const c10::optional<int64_t> page_size) {
   at::SymInt B = query.sym_size(0);
   at::SymInt M = query.sym_size(1);
+  at::SymInt N = key.sym_size(1);
   at::SymInt Hq = query.sym_size(-2);
+  at::SymInt Hkv = key.sym_size(-2);
+  at::SymInt K = query.sym_size(-1);
   at::SymInt Kv = value.sym_size(-1);
   auto opts = query.options();
   std::optional<at::Tensor> logsumexp = std::nullopt;
 
@@ -11,7 +11,7 @@
 #include <sstream>
 #include <stdexcept>
 
-#include <torch/torch.h>
+#include <torch/all.h>
 
 #define XFORMERS_CHECK(COND, ERR)          \
   if (!(COND)) {                           \
@@ -47,23 +47,6 @@
     }                                                                        \
   } while (0)
 
-static inline size_t get_size_in_bytes(size_t n, at::ScalarType dtype) {
-  if (dtype == at::ScalarType::Float) {
-    return n * 4;
-  } else if (dtype == at::ScalarType::Half) {
-    return n * 2;
-  } else if (dtype == at::ScalarType::BFloat16) {
-    return n * 2;
-  } else if (dtype == at::ScalarType::Short) {
-    return n * 2;
-  } else if (dtype == at::ScalarType::Int) {
-    return n * 4;
-  } else if (dtype == at::ScalarType::Byte) {
-    return n;
-  }
-  return 0;
-}
-
 /**
  * kernels expect 4D bias/bias.grad with shape
  * (batch_sz, n_heads, n_queries, n_keys). common bias shapes users may pass
Original file line number	Diff line number	Diff line change
`@@ -1,3 +1,4 @@`
	`1`	`+`
`1`	`2`	`# Instances generator`
`2`	`3`
`3`	`4`	`The instances generator is a simple python tool used to generate several hundred of instances (.cpp files) and their references (.h files).`