По сути, выделяют три основные категории: обучение с подкреплением, обучение с учителем и самообучение.
Обучение с подкреплением происходит методом проб и ошибок и хорошо работает для игр, где можно делать сколько угодно попыток. Хорошая производительность AlphaGo была достигнута после того, как машина сыграла больше игр, чем все человечество за последние три тысячи лет. К задачам из реального мира такой подход нецелесообразен.
Человек может научиться водить автомобиль за 15 часов тренировок, ни во что не врезавшись. Если использовать существующие методы обучения с подкреплением, машине, чтобы научиться ездить без водителя, придется 10 тысяч раз упасть с обрыва, прежде чем она поймет, как этого избежать.