Чтобы лучше понять наивный байесовский классификатор, мы должны сначала взглянуть на теорему Байеса и ее уравнение. Как только мы разберем эти понятия, переход от теоремы к алгоритму классификации пройдет гладко.

основным недостатком k-NN является то, что вычисление занимает очень много времени. Необходимость вычислять расстояние до каждой точки в массиве данных чревата тем, что чем больше у вас точек, тем медленнее k-NN будет работать.

5 апреля 2021

Алгоритм k-NN часто является правильным выбором, потому что он интуитивно понятен и, в отличие от наивного байесовского классификатора, как мы увидим ниже, не разрешает допущения о данных.

5 апреля 2021

Как бы ни был хорош k-NN для создания точных прогнозов, важно отметить, что результаты применения этого метода не всегда будут правильными. Это совершенно нормально — всегда будет несколько неверных прогнозов и ни один алгоритм не сможет всегда давать правильные ответы. Ключ к созданию хорошей модели состоит в том, чтобы проверить ее несколько раз, изменяя функции (в нашем случае — значение k), пока вы не найдете лучшее решение для своей задачи.

5 апреля 2021

k-NN анализирует вероятность. Метод заключается в вычислении расстояния между новой точкой данных и уже существующими. И поскольку существующие точки данных представляют собой ранее диагностированных пациентов, мы можем сгруппировать их в две категории: 1) страдающие диабетом и 2) здоровые. Затем новая точка данных (в нашем случае — новый пациент) будет классифицирована в соответствии с окружающими пациентами. Именно здесь мы наблюдаем основное допущение этого алгоритма: k-NN допускает, что даже особенности пациентов будут схожи при условии, что схожи некоторые известные особенности.

5 апреля 2021

Метод k-ближайших соседей (k-NN) Этот метод использует шаблоны в данных для размещения новых точек данных в соответствующих категориях.

5 апреля 2021

Подумайте об этом как о процессе голосования — каждое решающее дерево проголосует (сделает прогноз), а затем алгоритм случайного леса возьмет вариант с наибольшим количеством голосов в качестве результата. Демократия среди деревьев!

5 апреля 2021

когда деревья решений используются в совокупности, они могут давать гораздо более обоснованные прогнозы.

5 апреля 2021

Алгоритм случайного леса основывается на концепции деревьев решений с использованием ансамблевого метода классификации. Вместо одного дерева случайный лес использует много разных деревьев, чтобы сделать один и тот же прогноз, принимая среднее значение результатов отдельных деревьев.

5 апреля 2021

Дерево решений можно визуализировать в виде блок-схемы. Алгоритм тестирует отдельные атрибуты в массиве данных, чтобы определить возможные результаты, и продолжает добавлять результаты по мере выполнения дальнейших тестов, останавливаясь только тогда, когда все результаты исчерпаны.

5 апреля 2021

Цитаты из книги «Работа с данными в любой сфере»