fixes

Cyrilvallez · Cyrilvallez · commit 557ef759709e · 2025-11-14T17:32:03.000+01:00
diff --git a/src/transformers/models/electra/modeling_electra.py b/src/transformers/models/electra/modeling_electra.py
@@ -1302,7 +1302,7 @@ def __init__(self, config):
         self.generator_predictions = ElectraGeneratorPredictions(config)
         self.generator_lm_head = nn.Linear(config.embedding_size, config.vocab_size)
 
-        self.init_weights()
+        self.post_init()
 
     def get_output_embeddings(self):
         return self.generator_lm_head
diff --git a/src/transformers/models/fastspeech2_conformer/modeling_fastspeech2_conformer.py b/src/transformers/models/fastspeech2_conformer/modeling_fastspeech2_conformer.py
@@ -1008,7 +1008,7 @@ def _init_weights(self, module):
             init.zeros_(module.bias)
             init.ones_(module.weight)
         elif isinstance(module, nn.Embedding):
-            module.weight.normal_()
+            init.normal_(module.weight)
             if module.padding_idx is not None:
                 init.zeros_(module.weight[module.padding_idx])
         elif isinstance(module, FastSpeech2ConformerAttention):
diff --git a/src/transformers/models/groupvit/modeling_groupvit.py b/src/transformers/models/groupvit/modeling_groupvit.py
@@ -755,7 +755,7 @@ def _init_weights(self, module):
 
         init_range = self.config.initializer_range
         if isinstance(module, (nn.Linear, nn.Conv2d)):
-            module.weight.normal_(mean=0.0, std=init_range)
+            init.normal_(module.weight, mean=0.0, std=init_range)
             if module.bias is not None:
                 init.zeros_(module.bias)
         elif isinstance(module, nn.LayerNorm):
diff --git a/src/transformers/models/plbart/modular_plbart.py b/src/transformers/models/plbart/modular_plbart.py
@@ -82,7 +82,7 @@ def __init__(self, config: PLBartConfig):
         self.encoder = PLBartEncoder(config)
         self.decoder = PLBartDecoder(config)
 
-        self.init_weights()
+        self.post_init()
 
     def get_input_embeddings(self):
         return self.shared
@@ -211,7 +211,7 @@ def __init__(self, config: PLBartConfig):
         self.register_buffer("final_logits_bias", torch.zeros((1, self.model.shared.num_embeddings)))
         self.lm_head = nn.Linear(config.d_model, self.model.shared.num_embeddings, bias=False)
 
-        self.init_weights()
+        self.post_init()
 
     def get_encoder(self):
         return self.model.get_encoder()
diff --git a/src/transformers/models/qwen3_omni_moe/modeling_qwen3_omni_moe.py b/src/transformers/models/qwen3_omni_moe/modeling_qwen3_omni_moe.py
@@ -82,9 +82,9 @@ def _init_weights(self, module):
         super()._init_weights(module)
         std = self.config.initializer_range
         if isinstance(module, Qwen3OmniMoeThinkerTextSparseMoeBlock):
-            module.experts.gate_up_proj.normal_(mean=0.0, std=std)
-            module.experts.down_proj.normal_(mean=0.0, std=std)
-            module.router.weight.normal_(mean=0.0, std=std)
+            init.normal_(module.experts.gate_up_proj, mean=0.0, std=std)
+            init.normal_(module.experts.down_proj, mean=0.0, std=std)
+            init.normal_(module.router.weight, mean=0.0, std=std)
 
 
 def _get_feat_extract_output_lengths(input_lengths):
diff --git a/src/transformers/models/qwen3_omni_moe/modular_qwen3_omni_moe.py b/src/transformers/models/qwen3_omni_moe/modular_qwen3_omni_moe.py
@@ -25,6 +25,7 @@
 from torch import nn
 from torch.nn import functional as F
 
+from ... import initialization as init
 from ...activations import ACT2FN
 from ...audio_utils import AudioInput
 from ...cache_utils import Cache, DynamicCache
@@ -796,9 +797,9 @@ def _init_weights(self, module):
         PreTrainedModel._init_weights(self, module)
         std = self.config.initializer_range
         if isinstance(module, Qwen3OmniMoeThinkerTextSparseMoeBlock):
-            module.experts.gate_up_proj.normal_(mean=0.0, std=std)
-            module.experts.down_proj.normal_(mean=0.0, std=std)
-            module.router.weight.normal_(mean=0.0, std=std)
+            init.normal_(module.experts.gate_up_proj, mean=0.0, std=std)
+            init.normal_(module.experts.down_proj, mean=0.0, std=std)
+            init.normal_(module.router.weight, mean=0.0, std=std)
 
 
 class Qwen3OmniMoePreTrainedModelForConditionalGeneration(Qwen2_5OmniPreTrainedModelForConditionalGeneration):