Брендан Тирни — лучшие цитаты из книг, афоризмы и высказывания

4.6

Премиум

Наука о данных. Базовый курс Брендан Тирни

По сути, набор данных предназначен для двух разных целей. Первая состоит в том, чтобы выявить алгоритм, который генерирует лучшие модели. Вторая — оценить эффективность обобщения наилучшей модели, т.е. насколько хорошо она может справиться с новыми данными. Золотое правило оценки моделей заключается в том, что их никогда не следует тестировать на тех же данных, на которых они были обучены. Использование одних и тех же данных для моделей обучения и тестирования равносильно тому, чтобы показать ученикам экзаменационные вопросы за ночь до экзамена.

3 февраля 2021

4.6

Премиум

Наука о данных. Базовый курс Брендан Тирни

Графические карты и процессоры (GPU)

2 февраля 2021

4.6

Премиум

Наука о данных. Базовый курс Брендан Тирни

Криса Андерсона «Длинный хвост: Эффективная модель бизнеса в интернете

2 февраля 2021

4.6

Премиум

Наука о данных. Базовый курс Брендан Тирни

задачи могут называться по-разному, например: ETL (извлечение, преобразование, загрузка), подготовка, слияние, уплотнение данных и др.

2 февраля 2021

4.6

Премиум

Наука о данных. Базовый курс Брендан Тирни

где набор данных содержит — оценка функцией цели для того же объекта.

20 января 2021

4.6

Премиум

Наука о данных. Базовый курс Брендан Тирни

Отклонение функции для каждого объекта возводится в квадрат на последнем шаге так, чтобы отклонение, когда функция завышает значение, не отменялось отклонением, когда цель недооценена. Возведение в квадрат и в том и в другом случае придает отклонению положительное значение. Этот параметр известен как , а стратегия подбора линейной функции путем поиска параметров, минимизирующих сумму квадратов отклонений (SSE), называется методом наименьших квадратов. SSE определяется как

20 января 2021

4.6

Премиум

Наука о данных. Базовый курс Брендан Тирни

С помощью регрессионного анализа можно выдвинуть гипотезу и смоделировать множество различных типов зависимостей между атрибутами. В принципе, единственное ограничение для структуры, которая может быть смоделирована, — это возможность определить соответствующую функцию регрессии. В некоторых областях могут быть веские теоретические причины для использования конкретного типа зависимости, но в иных случаях целесообразно начинать с самого простого типа, а именно с линейной зависимости, и уже затем, если это требуется, моделировать с более сложными. Одна из причин, по которой следует начинать с линейной зависимости, — простота интерпретации функции линейной регрессии. Другая причина — здравый смысл, который состоит в том, чтобы ничего не усложнять без необходимости. Отклонение функции для каждого объекта возводится в квадрат, а затем эти возведенные в квадрат значения суммируются.

20 января 2021

4.6

Премиум

Наука о данных. Базовый курс Брендан Тирни

Когда набор данных состоит из числовых атрибутов, часто используются модели прогнозирования, основанные на регрессии. Регрессионный анализ оценивает ожидаемое (или среднее) значение числового целевого атрибута, когда все входные атрибуты фиксированы. Первый шаг в регрессионном анализе — выдвижение гипотезы о структуре отношений между входными атрибутами и целевым. Затем определяется параметризованная математическая модель предполагаемой взаимосвязи. Эта параметризованная модель называется функцией регрессии. Вы можете представить себе функцию регрессии как машину, которая преобразует входные данные в выходные, а параметры — в виде настроек, управляющих поведением машины. Функция регрессии может иметь несколько параметров, и целью регрессионного анализа является поиск правильных настроек для этих параметров.

20 января 2021

4.6

Премиум

Наука о данных. Базовый курс Брендан Тирни

На языке бизнеса эта задача известна как .

17 января 2021

4.6

Премиум

Наука о данных. Базовый курс Брендан Тирни

если наблюдается сильная корреляция входного атрибута с целевым, скорее всего, будет нелишним ввести его в модель прогнозирования. Подобно корреляционному анализу, прогнозирование включает в себя анализ отношений между атрибутами. Чтобы иметь возможность сопоставлять значения набора с целевым атрибутом, должна существовать корреляция между ним и входными атрибутами (или некоторой производной функцией от них). Если этой корреляции не существует (или она не найдена алгоритмом), то входные атрибуты не имеют значения при прогнозировании, и лучшее, что может сделать модель, — игнорировать входные данные и всегда прогнозировать центральную тенденцию этой цели в наборе данных. И наоборот, если между входными атрибутами и целью существует сильная корреляция, то весьма вероятно, что алгоритм машинного обучения сможет сгенерировать точную модель прогнозирования.

16 января 2021

Цитаты из книг автора «Брендан Тирни»