Обучение с подкреплением было детищем инженеров-программистов, которые поняли, что алгоритмы обладают потенциалом оценивать собственную эффективность — и вносить улучшения — гораздо быстрее, чем любой человек. Чтобы добиться этого, они снабдили их двумя типами субалгоритмов (или подпрограмм): одна измеряет производительность алгоритма в то время, как сам он работает на огромной скорости, а другая (называемая функцией вознаграждения) помогает алгоритму изменять себя, чтобы улучшить свою производительность в соответствии