Однако в большинстве проектов ограничения касаются того, какие атрибуты доступны, а также какие из них имеют отношение к проблеме, которую мы пытаемся решить в конкретной предметной области.
В науке о данных термины «набор данных» и «аналитическая запись» часто используются взаимозаменяемо, при этом аналитическая запись является конкретным представлением набора данных. Таблица 1 иллюстрирует аналитическую запись для набора данных нескольких книг. Каждый ряд в таблице описывает одну книгу.
Люди нужны для того, чтобы сформулировать проблему, спроектировать и подготовить данные, выбрать, какие алгоритмы машинного обучения являются наиболее подходящими, критически интерпретировать результаты анализа и спланировать соответствующие действия, основанные на выявленных закономерностях
Процесс преобразования возрастов в диапазоны является примером одного из методов преобразования данных, называемого биннингом. Хотя биннинг относительно прост с технической точки зрения, сложность состоит в том, чтобы определить наиболее подходящие пороговые значения диапазона, которые следует применять.
Преобразование данных включает в себя их изменение или объединение. На этом этапе используются самые разные методы, включая сглаживание данных, объединение, нормализацию и написание пользовательского кода для выполнения конкретного преобразования.
Типичный процесс интеграции данных включает в себя несколько этапов, а именно: извлечение, очистку, стандартизацию, преобразование и, наконец, собственно интеграцию