Revert "Remove cast to long"

araffin · araffin · commit c2d532c59f3a · 2025-08-04T18:04:51.000+02:00
This reverts commit 216d757.
diff --git a/stable_baselines3/a2c/a2c.py b/stable_baselines3/a2c/a2c.py
@@ -144,8 +144,8 @@ def train(self) -> None:
         for rollout_data in self.rollout_buffer.get(batch_size=None):
             actions = rollout_data.actions
             if isinstance(self.action_space, spaces.Discrete):
-                # Flatten discrete actions for correct computation of log prob
-                actions = actions.flatten()
+                # Convert discrete action from float to long
+                actions = actions.long().flatten()
 
             values, log_prob, entropy = self.policy.evaluate_actions(rollout_data.observations, actions)
             values = values.flatten()
diff --git a/stable_baselines3/ppo/ppo.py b/stable_baselines3/ppo/ppo.py
@@ -207,8 +207,9 @@ def train(self) -> None:
             for rollout_data in self.rollout_buffer.get(self.batch_size):
                 actions = rollout_data.actions
                 if isinstance(self.action_space, spaces.Discrete):
-                    # Flatten discrete actions for correct computation of log prob
-                    actions = rollout_data.actions.flatten()
+                    # Convert discrete action from float to long
+                    actions = rollout_data.actions.long().flatten()
+
                 values, log_prob, entropy = self.policy.evaluate_actions(rollout_data.observations, actions)
                 values = values.flatten()
                 # Normalize advantage