suragnair · rlronan · Feb 18, 2020 · Mar 8, 2020 · Mar 8, 2020 · Mar 8, 2020
diff --git a/Arena.py b/Arena.py
@@ -55,7 +55,7 @@ def playGame(self, verbose=False):
             assert(self.display)
             print("Game over: Turn ", str(it), "Result ", str(self.game.getGameEnded(board, 1)))
             self.display(board)
-        return self.game.getGameEnded(board, 1)
+        return curPlayer*self.game.getGameEnded(board, curPlayer)
 
     def playGames(self, num, verbose=False):
         """

diff --git a/Coach.py b/Coach.py
@@ -50,16 +50,23 @@ def executeEpisode(self):
 
             pi = self.mcts.getActionProb(canonicalBoard, temp=temp)
             sym = self.game.getSymmetries(canonicalBoard, pi)
-            for b,p in sym:
-                trainExamples.append([b, self.curPlayer, p, None])
+
+            # ideally these should be combined so that getSymmetries takes valids as well 
+            bs, ps = zip(*self.game.getSymmetries(canonicalBoard, pi))
+            _, valids_sym = zip(*self.game.getSymmetries(canonicalBoard, valids))
+            sym = zip(bs,ps,valids_sym)
+
+            for b,p,valid in sym:
+                # previous was: [b, self.curPlayer, p, None], but only 3 values were returned
+                trainExamples.append([b, self.curPlayer, p, valid])
 
             action = np.random.choice(len(pi), p=pi)
             board, self.curPlayer = self.game.getNextState(board, self.curPlayer, action)
 
             r = self.game.getGameEnded(board, self.curPlayer)
 
             if r!=0:
-                return [(x[0],x[2],r*((-1)**(x[1]!=self.curPlayer))) for x in trainExamples]
+                return [(x[0],x[2],r*((-1)**(x[1]!=self.curPlayer)),x[3]) for x in trainExamples]
 
     def learn(self):
         """