Группа исследователей из Массачусетского технологического института, Корнеллского университета, Вашингтонского университета и Microsoft Research разработала фреймворк под названием «Reinforcement Learning via Self-Play» (RLSP), который обучает большие …