feat: Add fused attention output + RMSNorm support for GPT-OSS #148

ChuanLi1101 · 2026-01-17T17:55:13Z

Summary

Integrate AITER's new \used_attn_output_rmsnorm\ kernel into GPT-OSS model.

Changes

Add \ATOM_ENABLE_FUSED_ATTN_OUTPUT_RMSNORM\ environment variable (default: disabled)
Update \TransformerBlock\ to use fused kernel when enabled
Supports \x_pad_to_multiple\ for MoE compatibility

Usage

\\�ash
export ATOM_ENABLE_FUSED_ATTN_OUTPUT_RMSNORM=1
\\

Dependencies

Requires: AITER PR ROCm/aiter#1863 merged first

Performance Benefits

Reduces kernel launch overhead (3 kernels -> 1)
Saves memory bandwidth
Expected ~5-8% E2E improvement for GPT-OSS prefill

Integrate AITER's new fused_attn_output_rmsnorm kernel into GPT-OSS model. Changes: - Add ATOM_ENABLE_FUSED_ATTN_OUTPUT_RMSNORM env variable (default: disabled) - Update TransformerBlock to use fused kernel when enabled - Supports x_pad_to_multiple for MoE compatibility Usage: export ATOM_ENABLE_FUSED_ATTN_OUTPUT_RMSNORM=1 Requires: AITER with fused_attn_output_rmsnorm kernel

ChuanLi1101 requested a review from carlushuang January 17, 2026 17:57

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

feat: Add fused attention output + RMSNorm support for GPT-OSS #148

feat: Add fused attention output + RMSNorm support for GPT-OSS #148

Uh oh!

ChuanLi1101 commented Jan 17, 2026

Uh oh!

Reviewers

Assignees

Labels

Projects

Milestone

Development

Uh oh!

2 participants

feat: Add fused attention output + RMSNorm support for GPT-OSS #148

Are you sure you want to change the base?

feat: Add fused attention output + RMSNorm support for GPT-OSS #148

Uh oh!

Conversation

ChuanLi1101 commented Jan 17, 2026

Summary

Changes

Usage

Dependencies

Performance Benefits

Uh oh!

Reviewers

Assignees

Labels

Projects

Milestone

Development

Uh oh!

2 participants