Цитаты из книги «Работа с данными в любой сфере» Кирилла Еременко📚 — лучшие афоризмы, высказывания и крылатые фразы — MyBook. Страница 6
image

Цитаты из книги «Работа с данными в любой сфере»

198 
цитат

Нельзя просто сбросить данные из исходного источника непосредственно в хранилище данных — если только вы не работать с беспорядочным массивом данных.
5 апреля 2021

Поделиться

обе они хорошо работают с файлами размером до 2 ГБ, я заметил, что Notepad++ иногда может «сопротивляться» массивам данных, близким к максимальному размеру файла. В результате я обнаружил, что EditPad Lite работает с большими файлами намного лучше. Если вы заметите, что перегрузили файлами Notepad++, обратитесь к EditPad Lite.
5 апреля 2021

Поделиться

EditPad Lite — бесплатная программа для личного использования.
5 апреля 2021

Поделиться

Notepad++ — инструмент, которым я пользуюсь, когда хочу посмотреть извлеченные мной данные. Это мощный редактор для просмотра CSV-файлов, и он гораздо удобнее, чем программа «Блокнот», которая стандартно поставляется с Windows.
5 апреля 2021

Поделиться

для серьезных проектов в области науки о данных работать с данными в их первоначальном хранилище запрещено. Иначе вы можете случайно изменить необработанные данные, что поставит под угрозу вашу работу.
5 апреля 2021

Поделиться

Нам нужно извлечь данные: 1) чтобы убедиться, что мы не изменяем каким-либо образом исходный источник; и 2) потому что данные, которые мы хотим проанализировать, часто хранятся в разных местах. Некоторые примеры возможных местоположений: база данных; таблицы Excel; сайт; Twitter; CSV-файл; бумажный отчет. Если мы используем данные из нескольких источников, нам придется извлечь их в единую базу данных или хранилище, чтобы проанализировать.
5 апреля 2021

Поделиться

подготовка данных всегда будет занимать много времени, но чем больше осмотрительности вы проявите на этом этапе, тем больше ускорите процесс анализа данных в целом.
5 апреля 2021

Поделиться

Я предпочитаю очищать данные на процесса ETL — это может показаться неэффективной тратой времени, но я обнаружил, что нет лучшего способа защититься от неприятностей в дальнейшем.
5 апреля 2021

Поделиться

Для того чтобы сделать исходные (сырые) данные пригодными для анализа, их нужно сначала подготовить: Извлечь данные из исходных источников; Перевести данные на понятный язык, чтобы они стали доступны в реляционной базе данных; Загрузить данные в конечный источник. oad), и он поможет собрать данные подходящего формата в конечном источнике («хранилище»), к которому можно получить доступ и проанализировать данные на более поздних этапах процесса их обработки. Хранилище содержит разрозненные данные в одной системе. Зачастую оно будет включать реляционные базы данных.
4 апреля 2021

Поделиться

наша задача — подготовить данные таким образом, чтобы они были поняты и правильно проанализированы машиной. С большими возможностями
4 апреля 2021

Поделиться

1
...
...
20