Revert _normalize_obs calls in rollout buffers

Trenza1ore · Trenza1ore · commit 872a7e5ae94d · 2025-08-01T00:06:43.000+01:00
diff --git a/stable_baselines3/common/buffers.py b/stable_baselines3/common/buffers.py
@@ -572,8 +572,8 @@ def _get_samples(
         env: Optional[VecNormalize] = None,
     ) -> RolloutBufferSamples:
         data = (
-            self._normalize_obs(self.observations[batch_inds], env),
-            self.actions[batch_inds].astype(np.float32, copy=False),
+            self.observations[batch_inds],
+            self.actions[batch_inds],
             self.values[batch_inds].flatten(),
             self.log_probs[batch_inds].flatten(),
             self.advantages[batch_inds].flatten(),
@@ -893,12 +893,8 @@ def _get_samples(  # type: ignore[override]
         batch_inds: np.ndarray,
         env: Optional[VecNormalize] = None,
     ) -> DictRolloutBufferSamples:
-        # Normalize if needed
-        observations: dict[str, np.ndarray] = self._normalize_obs(
-            obs={key: obs[batch_inds] for (key, obs) in self.observations.items()}, env=env
-        )  # type: ignore[assignment]
         return DictRolloutBufferSamples(
-            observations={key: self.to_torch(obs) for (key, obs) in observations.items()},
+            observations={key: self.to_torch(obs[batch_inds]) for (key, obs) in self.observations.items()},
             actions=self.to_torch(self.actions[batch_inds]),
             old_values=self.to_torch(self.values[batch_inds].flatten()),
             old_log_prob=self.to_torch(self.log_probs[batch_inds].flatten()),