alpha zero是如何避免在不可行的位置落子的 #113

ZhangXi20181002 · 2020-09-26T07:56:32Z

想请教一下，alpha zero是如何避免在不可行的位置落子的，比如该位置已经被占了，因为mcts在select的时候，每一个动作的概率是跟policy的输出有关，而在一开始的时候，policy是不知道哪些位置可行，哪些不可行，这样是否会产生不可行的动作？

KohakuBlueleaf · 2020-09-28T14:27:42Z

在產生policy之後把所有不能動的位置的porb改成-INF或0
（有過softmax用0即可沒有的話用-INF)

ZhangXi20181002 · 2020-09-29T07:56:40Z

在產生policy之後把所有不能動的位置的porb改成-INF或0
（有過softmax用0即可沒有的話用-INF)

明白了，感谢您的解答！

Provide feedback