Сейчас у DeepMind есть еще более совершенный алгоритм, способный разгромить первоначальную версию AlphaGo. Этому алгоритму не нужно было показывать, как играют в го люди. Как и алгоритм, игравший на приставке Atari, он видел массив пикселей размером 19 × 19 и счет в игре и начал играть, экспериментируя с разными ходами. Он использовал возможности обучения с подкреплением, которое было второй стадией создания AlphaGo. Новый алгоритм обучался почти с чистого листа, и даже сами сотрудники DeepMind были поражены его силой. Он уже не был ограничен тем, как мыслят и играют люди. Через трое суток обучения, в рамках которого алгоритм сыграл сам с собой 4,9 млн партий, он смог выиграть у того варианта AlphaGo, который победил Ли Седоля, сто партий из ста. Всего за три дня он добился того, на что у человечества ушли три тысячи лет. К сороковому дню он стал непобедимым. Еще за восемь часов он сумел научиться играть в шахматы и сёги (японскую игру, аналогичную шахматам), причем дошел до такого уровня мастерства, что победил две из лучших имеющихся на рынке шахматных программ.