Мы уже отмечали, что выбор атрибутов — ключевая задача...➤ MyBook
image

Цитата из книги «Наука о данных. Базовый курс»

Мы уже отмечали, что выбор атрибутов — ключевая задача в науке о данных. То же касается и моделирования атрибутов. Часто моделирование производного атрибута, который имеет сильную корреляцию с целевым, — это уже полдела в науке о данных. Когда вы знаете правильные атрибуты для представления данных, вы можете создавать модели точно и быстро. Выбор и моделирование правильных производных атрибутов является непростой задачей. ИМТ был разработан в XIX в., однако сейчас алгоритмы машинного обучения способны изучать взаимодействия между входными атрибутами и создавать полезные производные атрибуты, просматривая различные их комбинации, проверяя корреляцию между ними и целевым атрибутом. Вот почему машинное обучение полезно в тех случаях, когда существует множество атрибутов, имеющих слабо выраженную взаимосвязь с процессом, который мы пытаемся понять. Выявление атрибута (необработанного или производного), который имеет высокую корреляцию с целевым атрибутом, полезно, поскольку коррелированный атрибут может дать нам понимание процесса, представленного целевым атрибутом. В нашем случае факт сильной корреляции ИМТ с вероятностью развития диабета указывает на то, что не вес сам по себе способствует заболеванию, а его избыточность. Кроме того, если наблюдается сильная корреляция входного атрибута с целевым, скорее всего, будет нелишним ввести его в модель прогнозирования. Подобно корреля
17 апреля 2020

Поделиться