Три ошибки дата-аналитика при сборе и обработке данных

Чтобы аналитики могли сделать правильные выводы из данных и найти скрытые взаимосвязи, эти данные нужно правильно собрать и предварительно обработать. Если просто взять сырые данные и сразу начать анализировать, то результат, скорее всего, получится неточным, ненадёжным и непригодным для того, чтобы на него можно было опираться. Чтобы такого не случалось, рассказываем про три частые ошибки дата-аналитиков и дата-инженеров при первичной работе с данными.

Использование неправильной выборки данных

Правильность выбора данных для анализа влияет на точность и репрезентативность выводов. Ошибки при формировании выборки могут привести к искажениям результатов и сделать их нерелевантными для целевой аудитории или проблемы.

Нерепрезентативная выборка

Нерепрезентативная выборка — это выборка данных, которая не отражает характеристики всей группы или населения, из которого она была взята. Например, если выборка данных сильно смещена в сторону определённых групп или характеристик, она не сможет предоставить объективное представление обо всей популяции. Анализ на основе нерепрезентативной выборки может привести к неверным выводам и ошибочным решениям. Например, если в исследовании пользовательских предпочтений используются данные только от одной возрастной группы, результаты могут не отражать предпочтений всей целевой аудитории.

Кто такой дата-сайентист

Что делать: убедиться, что выборка охватывает все релевантные группы или характеристики целевой популяции. Этого можно достичь, например, с помощью стратифицированной выборки или кластерной выборки.

Смещение

Смещение возникает, когда выбор данных для анализа предвзято отдаёт предпочтение определённым результатам или группам. Это может произойти из-за неправильного отбора данных или из-за того, что данные не собираются случайным образом. Смещённая выборка приводит к систематическим ошибкам в результатах анализа, а это может исказить реальную картину и привести к неправильным решениям. Например, если в выборке для анализа доходов населения преобладают данные о богатых людях, это создаст ложное впечатление о среднем уровне доходов.

Как получить полезные знания из больших данных

Что делать: использовать случайную выборку и проверять данные. Если обнаружено смещение, нужно скорректировать выборку или использовать методы, которые учитывают это смещение.

Малая выборка

Малая выборка — это когда используют слишком мало данных для анализа, что может привести к статистически незначимым результатам. По ним трудно сделать достоверные и надёжные выводы, ведь результаты могут быть случайными и не отражать истинное распределение данных. Кроме того, анализ на основе малой выборки может привести к серьёзным ошибкам, включая переобучение моделей и неправильное понимание тенденций. Например, если выборка из 10 человек показывает, что 90% из них предпочитают определённый продукт, это не обязательно означает, что такое предпочтение характерно для всей популяции.

Честный рассказ аналитика данных о своей профессии

Что делать: собрать достаточно данных, чтобы обеспечить статистическую значимость. Для этого можно использовать метод увеличения выборки или агрегации данных.

Неучёт изменений во времени

Неучёт изменений во времени — это когда выборка данных может не учитывать временные изменения, которые могут существенно влиять на результаты анализа. Например, если данные собраны только за один конкретный период, они могут не отражать долгосрочных тенденций или сезонных колебаний. Неучёт временных факторов может привести к ложным выводам. Например, анализ продаж только за летний период может показать высокую популярность определённых товаров, но эти данные могут не быть релевантными в другие времена года.

Что делать: собрать данные за различные периоды, например данные за несколько лет или в разных сезонных интервалах.

Данные, собранные в разных условиях или разными методами

Данные, собранные в разных условиях или разными методами, — это потенциально несопоставимые данные. Например, если опросы проводились онлайн и офлайн, ответы респондентов могут существенно различаться. Смешение данных, собранных в разных условиях, может привести к искажению результатов и ложным выводам. Например, результаты онлайн-опроса могут показывать более высокий уровень технической грамотности, чем результаты офлайн-опроса.

Что делать: проверять данные на совместимость. Если есть различия, данные можно скорректировать или проанализировать по отдельности.

Игнорирование качества данных

Успех анализа данных, правильных выводов и решений на их основе во многом зависит от качества данных. Если с ним есть проблемы, можно получить искажённые результаты.

Пропущенные данные

Пропущенные данные — одна из самых распространённых проблем. Они могут возникать по разным причинам, например из-за неполной записи данных, ошибок при сборе или несовместимости форматов. Неправильная обработка пропущенных данных может привести к смещению в результатах анализа. Например, если удалить строки с пропущенными значениями, можно потерять важную информацию или изменить структуру данных.

Как биг-дата управляет миром: на примере магазинов

Что делать: обрабатывать данные разными способами, например заполнять средними значениями или медианой, использовать методы интерполяции или модели для предсказания пропущенных значений.

Ошибки в данных

Ошибки в данных могут возникнуть на этапе сбора данных, ввода или передачи данных и проявляться в виде опечаток, неправильных форматов, неверных кодировок, дубликатов или логических несоответствий. Это может привести к неправильным результатам анализа и интерпретации. Например, ошибка в кодировании категориальных данных может исказить распределение и повлиять на результаты статистических тестов.

Что делать: регулярно проверять данные на ошибки, проводить автоматические процедуры валидации данных и использовать правила целостности данных.

Дубликаты данных

Дубликаты данных могут появляться из-за сбоев в процессе сбора данных, ошибок при их интеграции из разных источников или случайных повторов при вводе. Это может исказить результаты анализа, поскольку какие-то наблюдения будут учтены несколько раз. Это особенно критично для агрегированных показателей, например средних значений или суммы.

Что делать: выявлять и удалять дубликаты, использовать уникальные идентификаторы для записи и автоматизировать процесс удаления.

Неправильные или нерелевантные данные

Неправильные или нерелевантные данные могут быть последствием неправильного понимания задачи, ошибок в исходных данных или включения данных из различных источников без их согласования. Использование таких данных может привести к неверным выводам и ложным корреляциям. Например, включение данных о температуре в анализ продаж, где температура не является фактором, может создать ложное ощущение связи между переменными.

Что делать: чётко определять цели анализа, тщательно собирать данные, проводить предварительную проверки релевантности и корректности данных перед тем, как использовать их.

Язык программирования Python

Выбросы

Выбросы — экстремальные значения, которые сильно отклоняются от других наблюдений в наборе данных. Они могут быть результатом ошибок при сборе данных или действительно отражать редкие события. Выбросы могут искажать результаты анализа, особенно если используются такие метрики, как среднее значение, которое чувствительно к выбросам.

Что делать: удалять или заменять выбросы или использовать методы анализа, которые устойчивы к выбросам, например медиану или IQR.

Вам может быть интересно:

Аналитика данных на практике: DC против Marvel

Резко врываемся в дату: чему учат и каким будет результат

Бигдата и тепловые карты на примере твитов Байдена и Трампа

Что такое датасет и как его использовать

Использование не обработанных предварительно данных

Предобработка данных — это ключевой этап в анализе данных. Предобработка включает очистку, трансформацию и подготовку данных для последующего анализа или моделирования. Пропуск этого этапа может привести к искажённым результатам, проблемам с качеством данных и усложнению дальнейшей работы с ними.

Где брать данные для анализа и машинного обучения: бесплатно и удобно

Шум в данных

Шум в данных — это случайные и нерелевантные данные, которые могут исказить результаты анализа: опечатки, ошибки при вводе данных, неправильные измерения или выбросы. Если данные с шумом не обработаны, их анализ может привести к неправильным выводам и затруднить выявление реальных закономерностей. Например, случайные выбросы могут значительно исказить результаты регрессионного анализа.

Что делать: исправлять ошибки в данных и фильтровать нерелевантную информацию.

Неправильное форматирование данных

Неправильное форматирование данных приводит к тому, что данные оказываются представлены в разных форматах и их трудно анализировать. Например, даты могут быть записаны в разных форматах (дд/мм/гггг или мм/дд/гггг), числовые данные могут содержать символы валют, а текстовые данные могут иметь разный регистр. Неправильное форматирование может привести к ошибкам при обработке данных и сделать данные несопоставимыми. Например, если даты не приведены к единому формату, могут возникнуть ошибки при их сортировке или анализе временных рядов.

Что делать: преобразовать данные в формат, который соответствует требованиям анализа. Например, привести все даты к одному формату, удалить лишние символы из числовых данных и привести текстовые данные к одному регистру.

Отсутствие нормализации данных

Отсутствие нормализации данных приводит к тому, что данные трудно анализировать и моделировать. Например, при построении модели машинного обучения ненормализованные данные могут привести к смещению модели в сторону более крупных значений.

Что делать: нормализовать данные перед анализом или использованием в моделях. Например, стандартизировать числовые данные, приведя их к одному масштабу или к нулевому среднему и единичной дисперсии, или преобразовать категориальные данные в числовые коды.

Проект: анализируем свою продуктивность по большим данным

Отсутствие обогащения данных

Отсутствие обогащения данных приводит к тому, что данные оказываются неинформативными или неполными для качественного анализа. Без обогащения данных результаты анализа могут быть менее точными или менее информативными. Например, если анализируется поведение пользователей, но не учтены данные о демографии, это может ограничить понимание контекста.

Что делать: добавить внешние данные или создать новые атрибуты на основе существующих данных. Например, добавить географическую информацию, данные о времени, погодных условиях и так далее.