Improve interface of BasePolicy.compute_action #1169

thu-ml · Jul 8, 2024 · c7b83f8 · c7b83f8
1 parent 9362744
commit c7b83f8
Showing 1 changed file with 4 additions and 3 deletions.
diff --git a/tianshou/policy/base.py b/tianshou/policy/base.py
@@ -10,6 +10,7 @@
 import torch
 from gymnasium.spaces import Box, Discrete, MultiBinary, MultiDiscrete
 from numba import njit
+from numpy._typing import ArrayLike
 from overrides import override
 from torch import nn
 
@@ -289,7 +290,7 @@ def soft_update(self, tgt: nn.Module, src: nn.Module, tau: float) -> None:
 
     def compute_action(
         self,
-        obs: arr_type,
+        obs: ArrayLike,
         info: dict[str, Any] | None = None,
         state: dict | BatchProtocol | np.ndarray | None = None,
     ) -> np.ndarray | int:
@@ -300,8 +301,8 @@ def compute_action(
         :param state: the hidden state of RNN policy, used for recurrent policy.
         :return: action as int (for discrete env's) or array (for continuous ones).
         """
-        # need to add empty batch dimension
-        obs = obs[None, :]
+        obs = np.array(obs)  # convert array-like to array (e.g. LazyFrames)
+        obs = obs[None, :]  # need to add empty batch dimension
         obs_batch = cast(ObsBatchProtocol, Batch(obs=obs, info=info))
         act = self.forward(obs_batch, state=state).act.squeeze()
         if isinstance(act, torch.Tensor):