Цитаты из книги «Работа с данными в любой сфере» Кирилла Еременко📚 — лучшие афоризмы, высказывания и крылатые фразы — MyBook. Страница 4
image

Цитаты из книги «Работа с данными в любой сфере»

198 
цитат

Следующие алгоритмы классификации расположены в порядке возрастания сложности. Начнем с дерева решений, так как многие читатели уже знакомы со структурными схемами. Такие схемы используют один и тот же принцип последовательного разделения информации на части, прежде чем представить участнику окончательный ответ. Регрессия по методу случайного леса — это просто расширение алгоритма построения деревьев решений, поскольку в ней используется несколько решающих деревьев для отдельных компонентов массива данных, чтобы обеспечить более точные результаты. Как метод k-ближайших соседей, так и наивные байесовские алгоритмы классифицируют точки данных по группам в соответствии с их относительным расстоянием друг от друга, измеряемым переменными каждой записи. Разница между ними станет очевидной в отдельных разделах. Заканчиваем наш обзор классификации логистической регрессией, которая является алгоритмом, используемым, когда мы хотим оценить вероятность того, что событие произойдет.
5 апреля 2021

Поделиться

При таком анализе важно также иметь предварительные данные, с помощью которых мы можем следить за характеристиками, которые нас интересуют. Это единственный способ создания алгоритма классификации, то есть используя уже имеющиеся примеры.
5 апреля 2021

Поделиться

Если еще мы будем знать, в какие группы попадут наши данные, то тогда лучше пойти по пути классификации, а не кластеризации.
5 апреля 2021

Поделиться

мы используем классификацию, когда уже знаем, в какие группы хотим объединить наши данные с помощью анализа, и мы используем кластеризацию, когда , что это будут за группы с точки зрения чисел или названия.
5 апреля 2021

Поделиться

как любой человек может водить машину, любой может быть аналитиком данных.
5 апреля 2021

Поделиться

Математика разбивает алгоритм на части, чтобы понять, как именно он работает и почему. В этом нет ничего плохого, и бывают ситуации, когда требуется такой уровень детализации. Но по большей части в нем нет необходимости при работе в качестве аналитика данных.
5 апреля 2021

Поделиться

Даже если вы считаете, что у вас нет необходимых инструментов или математических способностей, не позволяйте себе соблазниться и пропустить следующие две главы, думая, что можете просто нанять кого-то, чтобы сделать предварительный анализ за вас.
5 апреля 2021

Поделиться

Ниже приведены приемы проверки качества, которые вы всегда должны применять на этом этапе:
5 апреля 2021

Поделиться

После того как мы преобразовали данные в нужный формат, можно загрузить их в нашу конечную цель: хранилище. Как только этот процесс будет завершен, мы должны вручную просмотреть данные в последний раз, прежде чем пропускать их через машинный алгоритм, чтобы быть абсолютно уверенными, что мы работаем с достаточно подготовленными данными. Проверка
5 апреля 2021

Поделиться

Лучший способ предотвратить внесение изменений в записи программой Excel — поменять все ваши форматы дат на ГГГГ-ММ-ДД, так как это однозначный международный стандарт, не зависящий от региональных правил.
5 апреля 2021

Поделиться

1
...
...
20