Бинарный атрибут — это особый случай номинального атрибута, у которого набор возможных значений ограничен только двумя. Примером может служить бинарный атрибут «спам», который описывает, является электронная почта спамом (да) или не является (нет). К номинальным атрибутам не могут быть применены упорядочивание или арифметические операции.
Интервальные атрибуты измеряются по шкале с фиксированными, но произвольными единицами измерений и произвольным началом отсчета. Примерами интервальных атрибутов могут быть измерения даты и времени. К ним применяют упорядочивание и вычитание.
С проблемой правильных атрибутов сталкиваются все проекты науки о данных, и иногда ее решение сводится к итеративному процессу проведения экспериментов методом проб и ошибок, где каждая итерация проверяет результаты, полученные с использованием различных подмножеств атрибутов.
включение нерелевантных или избыточных атрибутов может отрицательно сказаться на производительности многих алгоритмов, используемых для анализа данных.
Обычно каждый объект описывается рядом атрибутов. Например, книга может иметь следующий набор атрибутов: автор, название, тема, жанр, издатель, цена, дата публикации, количество слов, глав, страниц, издание, ISBN и т.д.
Второй большой миф заключается в том, что каждый проект непременно нуждается в больших данных и требует глубокого обучения. Как правило, наличие большого объема данных помогает, но гораздо важнее, чтобы данные были правильными.