set qkv_fused_interleaved=False for gemma2.

haozha111 · copybara-github · commit d135da40da9a · 2025-03-12T17:09:31.000-07:00
PiperOrigin-RevId: 736317628
diff --git a/ai_edge_torch/generative/examples/gemma/gemma2.py b/ai_edge_torch/generative/examples/gemma/gemma2.py
@@ -247,6 +247,9 @@ def get_block_config(idx: int) -> cfg.TransformerBlockConfig:
         rotary_base=10000,
         rotary_percentage=1.0,
         qkv_transpose_before_split=True,
+        # The safetensors from HF is not using the interleaved qkv format, so
+        # we need to disable interleaving here in the model config.
+        qkv_fused_interleaved=False,
         logit_softcap=50.0,
         sliding_window_size=4096,
         attn_type=(