upd

yzh119 · yzh119 · commit 32dc1e9f6d7b · 2025-03-23T21:15:33.000Z
diff --git a/csrc/flashinfer_norm_ops.cu b/csrc/flashinfer_norm_ops.cu
@@ -15,17 +15,16 @@
  */
 #include "pytorch_extension_utils.h"
 
-void rmsnorm(at::Tensor& out, at::Tensor& input, at::Tensor& weight, double eps, bool enable_pdl,
-             int64_t cuda_stream);
+void rmsnorm(at::Tensor& out, at::Tensor& input, at::Tensor& weight, double eps, bool enable_pdl);
 
 void fused_add_rmsnorm(at::Tensor& input, at::Tensor& residual, at::Tensor& weight, double eps,
-                       bool enable_pdl, int64_t cuda_stream);
+                       bool enable_pdl);
 
 void gemma_rmsnorm(at::Tensor& out, at::Tensor& input, at::Tensor& weight, double eps,
-                   bool enable_pdl, int64_t cuda_stream);
+                   bool enable_pdl);
 
 void gemma_fused_add_rmsnorm(at::Tensor& input, at::Tensor& residual, at::Tensor& weight,
-                             double eps, bool enable_pdl, int64_t cuda_stream);
+                             double eps, bool enable_pdl);
 
 TORCH_LIBRARY_FRAGMENT(TORCH_EXTENSION_NAME, m) {
   // Root mean square normalization
diff --git a/csrc/flashinfer_ops.cu b/csrc/flashinfer_ops.cu
@@ -66,17 +66,16 @@ void CutlassSegmentGEMM(at::Tensor workspace_buffer, at::Tensor all_problems, at
 
 //========== norm ==========
 
-void rmsnorm(at::Tensor& out, at::Tensor& input, at::Tensor& weight, double eps, bool enable_pdl,
-             int64_t cuda_stream);
+void rmsnorm(at::Tensor& out, at::Tensor& input, at::Tensor& weight, double eps, bool enable_pdl);
 
 void fused_add_rmsnorm(at::Tensor& input, at::Tensor& residual, at::Tensor& weight, double eps,
-                       bool enable_pdl, int64_t cuda_stream);
+                       bool enable_pdl);
 
 void gemma_rmsnorm(at::Tensor& out, at::Tensor& input, at::Tensor& weight, double eps,
-                   bool enable_pdl, int64_t cuda_stream);
+                   bool enable_pdl);
 
 void gemma_fused_add_rmsnorm(at::Tensor& input, at::Tensor& residual, at::Tensor& weight,
-                             double eps, bool enable_pdl, int64_t cuda_stream);
+                             double eps, bool enable_pdl);
 
 //========== page ==========
 
diff --git a/csrc/norm.cu b/csrc/norm.cu
@@ -20,8 +20,8 @@
 
 using namespace flashinfer;
 
-void rmsnorm(at::Tensor& output, at::Tensor& input, at::Tensor& weight, double eps, bool enable_pdl,
-             int64_t cuda_stream) {
+void rmsnorm(at::Tensor& output, at::Tensor& input, at::Tensor& weight, double eps,
+             bool enable_pdl) {
   CHECK_LAST_DIM_CONTIGUOUS_INPUT(input);
   CHECK_LAST_DIM_CONTIGUOUS_INPUT(weight);
   auto device = input.device();
@@ -34,7 +34,8 @@ void rmsnorm(at::Tensor& output, at::Tensor& input, at::Tensor& weight, double e
   CHECK_EQ(output.size(0), batch_size);
   CHECK_EQ(output.size(1), hidden_size);
 
-  cudaStream_t stream = reinterpret_cast<cudaStream_t>(cuda_stream);
+  const c10::cuda::OptionalCUDAGuard device_guard(device);
+  const cudaStream_t stream = c10::cuda::getCurrentCUDAStream();
   DISPATCH_PYTORCH_DTYPE_TO_CTYPE_FP16(input.scalar_type(), c_type, [&] {
     cudaError_t status = norm::RMSNorm(
         static_cast<c_type*>(input.data_ptr()), static_cast<c_type*>(weight.data_ptr()),
@@ -47,7 +48,7 @@ void rmsnorm(at::Tensor& output, at::Tensor& input, at::Tensor& weight, double e
 }
 
 void fused_add_rmsnorm(at::Tensor& input, at::Tensor& residual, at::Tensor& weight, double eps,
-                       bool enable_pdl, int64_t cuda_stream) {
+                       bool enable_pdl) {
   CHECK_LAST_DIM_CONTIGUOUS_INPUT(input);
   CHECK_LAST_DIM_CONTIGUOUS_INPUT(residual);
   CHECK_LAST_DIM_CONTIGUOUS_INPUT(weight);
@@ -63,7 +64,8 @@ void fused_add_rmsnorm(at::Tensor& input, at::Tensor& residual, at::Tensor& weig
   unsigned int batch_size = input.size(0);
   unsigned int hidden_size = input.size(1);
 
-  cudaStream_t stream = reinterpret_cast<cudaStream_t>(cuda_stream);
+  const c10::cuda::OptionalCUDAGuard device_guard(device);
+  const cudaStream_t stream = c10::cuda::getCurrentCUDAStream();
   DISPATCH_PYTORCH_DTYPE_TO_CTYPE_FP16(input.scalar_type(), c_type, [&] {
     cudaError_t status = norm::FusedAddRMSNorm(
         static_cast<c_type*>(input.data_ptr()), static_cast<c_type*>(residual.data_ptr()),
@@ -76,7 +78,7 @@ void fused_add_rmsnorm(at::Tensor& input, at::Tensor& residual, at::Tensor& weig
 }
 
 void gemma_rmsnorm(at::Tensor& output, at::Tensor& input, at::Tensor& weight, double eps,
-                   bool enable_pdl, int64_t cuda_stream) {
+                   bool enable_pdl) {
   CHECK_LAST_DIM_CONTIGUOUS_INPUT(input);
   CHECK_LAST_DIM_CONTIGUOUS_INPUT(weight);
   auto device = input.device();
@@ -89,7 +91,8 @@ void gemma_rmsnorm(at::Tensor& output, at::Tensor& input, at::Tensor& weight, do
   CHECK_EQ(output.size(0), batch_size);
   CHECK_EQ(output.size(1), hidden_size);
 
-  cudaStream_t stream = reinterpret_cast<cudaStream_t>(cuda_stream);
+  const c10::cuda::OptionalCUDAGuard device_guard(device);
+  const cudaStream_t stream = c10::cuda::getCurrentCUDAStream();
   DISPATCH_PYTORCH_DTYPE_TO_CTYPE_FP16(input.scalar_type(), c_type, [&] {
     cudaError_t status = norm::GemmaRMSNorm(
         static_cast<c_type*>(input.data_ptr()), static_cast<c_type*>(weight.data_ptr()),
@@ -102,7 +105,7 @@ void gemma_rmsnorm(at::Tensor& output, at::Tensor& input, at::Tensor& weight, do
 }
 
 void gemma_fused_add_rmsnorm(at::Tensor& input, at::Tensor& residual, at::Tensor& weight,
-                             double eps, bool enable_pdl, int64_t cuda_stream) {
+                             double eps, bool enable_pdl) {
   CHECK_LAST_DIM_CONTIGUOUS_INPUT(input);
   CHECK_LAST_DIM_CONTIGUOUS_INPUT(residual);
   CHECK_LAST_DIM_CONTIGUOUS_INPUT(weight);
@@ -118,7 +121,8 @@ void gemma_fused_add_rmsnorm(at::Tensor& input, at::Tensor& residual, at::Tensor
   unsigned int batch_size = input.size(0);
   unsigned int hidden_size = input.size(1);
 
-  cudaStream_t stream = reinterpret_cast<cudaStream_t>(cuda_stream);
+  const c10::cuda::OptionalCUDAGuard device_guard(device);
+  const cudaStream_t stream = c10::cuda::getCurrentCUDAStream();
   DISPATCH_PYTORCH_DTYPE_TO_CTYPE_FP16(input.scalar_type(), c_type, [&] {
     cudaError_t status = norm::GemmaFusedAddRMSNorm(
         static_cast<c_type*>(input.data_ptr()), static_cast<c_type*>(residual.data_ptr()),
diff --git a/csrc/pytorch_extension_utils.h b/csrc/pytorch_extension_utils.h
@@ -15,6 +15,8 @@
  */
 #pragma once
 #include <Python.h>
+#include <c10/cuda/CUDAGuard.h>
+#include <c10/cuda/CUDAStream.h>
 #include <torch/library.h>
 
 #ifdef FLASHINFER_ENABLE_BF16
diff --git a/flashinfer/norm.py b/flashinfer/norm.py
@@ -14,12 +14,13 @@
 limitations under the License.
 """
 
-from typing import Optional
+from functools import cache
+from typing import Any, Optional
 
 import torch
 
 from .jit import FLASHINFER_CSRC_DIR, has_prebuilt_ops, load_cuda_ops
-from .utils import get_cuda_stream, register_custom_op, register_fake_op
+from .utils import register_custom_op, register_fake_op
 
 _norm_module = None
 
@@ -42,6 +43,14 @@ def get_norm_module():
     return _norm_module
 
 
+@cache
+def get_module_attr(attr: str) -> Any:
+    global _norm_module
+    if _norm_module is None:
+        get_norm_module()
+    return getattr(_norm_module, attr).default
+
+
 def rmsnorm(
     input: torch.Tensor,
     weight: torch.Tensor,
@@ -86,10 +95,7 @@ def _rmsnorm(
     eps: float,
     enable_pdl: bool,
 ) -> None:
-    with input.device as device:  # device guard
-        get_norm_module().rmsnorm.default(
-            out, input, weight, eps, enable_pdl, get_cuda_stream(device)
-        )
+    get_module_attr("rmsnorm")(out, input, weight, eps, enable_pdl)
 
 
 @register_fake_op("flashinfer::rmsnorm")
@@ -103,9 +109,6 @@ def _rmsnorm_fake(
     pass
 
 
-_fused_add_rmsnorm_kernel = None
-
-
 @register_custom_op("flashinfer::fused_add_rmsnorm", mutates_args=("input", "residual"))
 def fused_add_rmsnorm(
     input: torch.Tensor,
@@ -136,12 +139,7 @@ def fused_add_rmsnorm(
         Whether to enable `programmatic dependent launch
         <https://docs.nvidia.com/cuda/cuda-c-programming-guide/index.html#programmatic-dependent-launch-and-synchronization>`_
     """
-    global _fused_add_rmsnorm_kernel
-    if _fused_add_rmsnorm_kernel is None:
-        _fused_add_rmsnorm_kernel = get_norm_module().fused_add_rmsnorm.default
-    _fused_add_rmsnorm_kernel(
-        input, residual, weight, eps, enable_pdl, get_cuda_stream(input.device)
-    )
+    get_module_attr("fused_add_rmsnorm")(input, residual, weight, eps, enable_pdl)
 
 
 @register_fake_op("flashinfer::fused_add_rmsnorm")
@@ -199,10 +197,7 @@ def _gemma_rmsnorm(
     eps: float,
     enable_pdl: bool,
 ) -> None:
-    with input.device as device:  # device guard
-        get_norm_module().gemma_rmsnorm.default(
-            out, input, weight, eps, enable_pdl, get_cuda_stream(device)
-        )
+    get_module_attr("gemma_rmsnorm")(out, input, weight, eps, enable_pdl)
 
 
 @register_fake_op("flashinfer::gemma_rmsnorm")
@@ -248,10 +243,7 @@ def gemma_fused_add_rmsnorm(
         Whether to enable `programmatic dependent launch
         <https://docs.nvidia.com/cuda/cuda-c-programming-guide/index.html#programmatic-dependent-launch-and-synchronization>`_
     """
-    with input.device as device:
-        get_norm_module().gemma_fused_add_rmsnorm.default(
-            input, residual, weight, eps, enable_pdl, get_cuda_stream(device)
-        )
+    get_module_attr("gemma_fused_add_rmsnorm")(input, residual, weight, eps, enable_pdl)
 
 
 @register_fake_op("flashinfer::gemma_fused_add_rmsnorm")