Сегодня рассказываем о специалистах по Data Science: чем нужно заниматься, как это связано с биг-датой, что выучить и насколько прибыльна эта профессия сегодня.
Что такое Data Science
Если переводить дословно, Data Science — это наука о данных. Это сфера, которая занимается обработкой Big Data — больших объёмов информации, проще говоря, работает с биг-датой.
Data Science работает со всей информацией, которую получает бизнес: отчёты о продажах из CRM, данные опросов пользователей, демографические и региональные показатели, статистика метрик и показателей. Первоначальная необработанная информация называется сырой, а если данные привести к одному виду, разложить и очистить через фильтры, то это уже обработанные данные.
Data Science работает с информацией любого вида — и конечной целью этой науки является получение новых полезных знаний о компании, явлении или исследовании, прогнозов и ответов на вопросы, которые могут продвинуть всё это в развитии. Эти знания и ответы потом ложатся в основу планирования конкретных действий.
Data Science тесно связана со многими другими сферами и профессиями IT, например аналитикой и инженерией данных. Аналитики данных тоже ищут ответы на вопросы в большом количестве информации, а инженеры помогают доставить всю информацию в специальные хранилища, с которыми потом можно работать.
Кто такой специалист по Data Science
Data Scientist (он же дата-сайентист) — это специалист по обработке данных, работающий в трёх разных направлениях.
Computer science, или компьютерные науки. Это область всего, что связано с IT: программирование, базы данных, автоматизация процессов.
Математика. Для прогнозирования и построения гипотез в Data Science используется статистика, теория вероятностей, линейная алгебра и математический анализ.
Бизнес-экспертиза. Нужно разбираться в принципах работы компании, где работает специалист Data Science. Это не техническая, но тоже важная дисциплина. Нельзя помочь бизнесу стать лучше, если не понимаешь, как он устроен.
Дата-сайентисту необязательно разбираться в программировании и математике на уровне сеньоров-разработчиков или докторов математических наук. Достаточно иметь крепкие знания по основным разделам — а если в ходе работы появится какая-то сложная задача, то можно глубже разобраться именно в ней и поднять необходимый навык на нужный уровень.
👉 Бизнес-экспертиза часто зависит от компании, поэтому при выходе на новое место работы дата-сайентист должен посвятить достаточное количество времени пониманию бизнеса.
Задачи и обязанности Data Scientist
Data Scientist берёт массив существующих показателей и пытается вывести из них полезные для бизнеса закономерности и прогнозы. Данные могут быть любыми: текст, видео, фото, таблицы.
Вот как могут звучать обобщённые задачи дата-сайентиста:
- вычислить популярные поисковые запросы;
- посчитать вероятность перехода на целевую страницу;
- спрогнозировать спрос заказов на даты распродажи;
- найти самые часто задаваемые вопросы от клиентов;
- построить систему персональных рекомендаций пользователям.
Набор данных называется датасетом. Посмотреть их примеры можно на сайте kaggle.com. Вот небольшой датасет, который мы использовали для анализа фильмов в статье про DC и Marvel:
Некоторые задачи можно решить и без Data Science, например спрогнозировать примерный спрос на праздники. Но тогда это придётся делать, опираясь на опыт и интуицию. Data Science использует гораздо большее количество данных, чем может вместить голова среднего человека, поэтому прогнозы и результаты будут надёжнее.
Чтобы всё это делать, нужны модели машинного обучения.
Что такое модели и как они выглядят
ML-модель — это машинный алгоритм, способный обучаться на тех данных, которые ему выдают разработчики и инженеры.
Модель изучает данные разными методами и умеет находить закономерности и связи между ними. После обучения программа может строить прогнозы, анализировать и выявлять определённые действия, например попытки мошеннических операций в банках.
Это большая сложная тема, которую мы разберём в отдельной статье. Пока что достаточно запомнить, что модель — это код, который принимает на вход данные, учится и становится инструментом анализа.
Чем всё это отличается от других схожих профессий
Работа в Data Science часто переплетается с работой инженеров и аналитиков данных, ML-инженеров и бизнес-аналитиков.
Эти специалисты действительно имеют практически одинаковый базовый набор навыков, но разница в том, насколько хорошо они владеют каждым из них. У всех профессий есть что-то, на чём она сосредоточена.
Для примера сравним специалиста Data Science с двумя другими специальностями: инженер машинного обучения и аналитик данных. Сравнивать будем по 5 навыкам:
- математика и статистика;
- программирование;
- понимание бизнеса;
- коммуникации с командой, визуализация данных для презентации коллегам;
- обработка данных — извлечение, подготовка, загрузка в хранилище.
Аналитик данных
Аналитик данных — человек, который задаёт правильные вопросы и ищет ответы в данных. Для этого он много общается с клиентами и командой и углубляется в работу бизнеса вместо технологий.
Математика. Аналитику данных нужны основы статистики и вероятности, чтобы правильно интерпретировать данные и строить графики, но чаще всего ему не обязательно углубляться в алгоритмы и сложные математические модели.
Программирование понадобится на базовом уровне: нужно владеть SQL, Excel, основами Python. Основной фокус аналитика данных — не программирование, а визуализация и интерпретация данных.
Понимание бизнеса должно быть настолько высоким, что аналитик часто разбирается в работе компании лучше её собственника. Аналитику важно понимать бизнес-задачи, потому что он работает с интерпретацией данных для принятия бизнес-решений. Его работа может напрямую влиять на стратегические решения компании.
Коммуникация с коллегами и визуализация результатов тоже один из ключевых навыков для аналитиков. Для выявления нужной информации часто нужно много общаться с заказчиками и коллегами, чтобы понять, какие данные важны для их задачи и как с ними работать. А чтобы предоставить команде и клиентам итоги работы, аналитик должен уметь показать их понятным и наглядным образом.
Обработка данных. Аналитик должен уметь очищать и форматировать данные, но обычно это делается на уровне SQL и базовых операций в Python и Excel.
Если распределить очки навыков как в компьютерной игре, чтобы прокачаться в аналитике данных, получится примерно так:
Инженер машинного обучения
Инженер машинного обучения — больше программист, чем аналитик. Он сосредоточен на технологических инструментах.
Математика нужна в этой профессии для понимания работы моделей и их оптимизации, но ML-инженер не работает с гипотезами для бизнеса и прогнозами. Поэтому для него это не такая важная дисциплина, как для дата-сайентиста.
Программирование — основа работы ML-инженеров. Им нужно уметь не только программировать, но и оптимизировать код, работать с крупными системами и потоками данных.
Понимание бизнеса нужно общее, без глубокого погружения. Достаточно понимать, как построить продукт, учитывая потребности. Но бизнес-задачи обычно формулируют дата-сайентисты и аналитики.
Коммуникации с командой важны для ML-инженера при обсуждении деталей работы модели с командой. Визуализация данных в их компетенции обычно не входит.Обработка данных. ML-инженер работает с процессами извлечения, подготовки и загрузки данных с фокусом на автоматизацию и потоковые данные, чтобы модели могли стабильно обновляться.
А Data Scientist — кто это?
Дата-сайентист — это кто-то вроде аналитика с дополнительными навыками разработчика и инженера машинного обучения на основном уровне.
Математика и статистика — ключевые дисциплины DS, особенно если прибавить к ним аналитическое мышление. Дата-сайентист работает с моделями, оценкой гипотез, интерпретацией результатов и выбором правильных алгоритмов.
Программирование понадобится на уровне, достаточном для работы с данными, построения и тестирования моделей. Чаще всего DS-специалисты используют Python и библиотеки для работы с данными: pandas, NumPy, TensorFlow.
Понимание бизнеса важно для дата-сайентиста, чтобы знать, какие данные использовать и как интерпретировать результаты.
Коммуникации с командой и визуализация данных. Дата-сайентисты часто презентуют результаты исследований, поэтому должны уметь объяснить их и хорошо представить визуально. Но их основная задача — работа с данными и моделями, а не людьми.
Обработка данных — одна из ежедневных задач в Data Science. Нужно уметь работать с очисткой, объединением и предварительной обработкой данных, чтобы подготовить их для анализа.
Что нужно для старта в Data Science
Необходимые навыки и знания для старта получаются серьёзные, но не настолько, чтобы не попробовать свои силы в этом направлении. Получить необходимую экспертность реально за несколько месяцев, если это действительно будет интересно.
Вот нужные навыки:
- Программирование на Python и язык запросов SQL для работы с моделями и получения нужной информации в базах данных.
- Математика и статистика для работы с гипотезами.
- Фреймворки для машинного обучения.
- Желательно уметь работать с инструментами для обработки больших данных.
- Английский сильно упростит обучение, потому что много хороших материалов лежит в открытом доступе, но без перевода. Но можно обойтись и онлайн-переводчиками, тут некритично.
Требования к джуниору, мидлу и сеньору различаются примерно так же, как в большинстве других IT-направлений.
Джуниор должен иметь стартовые знания технологий, чтобы влиться в команду и потихоньку брать часть задач более опытных коллег, начать работать со всеми инструментами.
Мидл должен уметь решать некоторые задачи самостоятельно. Для этого понадобятся не только уверенные технологии, но и более глубокое погружение в бизнес и понимание сути работы с гипотезами и экспериментами, чтобы уметь выстраивать прогнозы и проводить исследования.
Сеньор должен уметь решить задачу полностью самостоятельно или собрать команду. Со временем специалист этого уровня может углубиться в управление командой и обучение дата-сайентистов уровней джуниор и мидл.
Где работает Data Scientist
Дата-сайентисты приносят больше всего пользы в крупных компаниях.
Специалисты по работе с Big Data приводят в порядок большие массивы показателей. Причём могут работать и с обработанными данными, и сырыми — то есть той информацией, которую только достали из точек сбора данных и ещё не успели обработать и привести к одному виду.
В стартапах и бизнесе среднего размера не всегда целесообразно внедрять таких специалистов, потому что информации и данных часто бывает недостаточно для обработки их моделями машинного обучения. Поэтому для начала в таких компаниях нужно наладить сбор данных и их обработку менее затратными средствами — например, через бизнес-аналитику или аналитику данных.
Другой вариант для небольших компаний и стартапов — когда один человек совмещает функции нескольких. Например, аналитика данных, разработчика и Data Scientist.
Востребованность и перспективы профессии
Data Scientist — молодая профессия, которая может серьёзно продвинуть бизнес вперёд. Поэтому и потребность в хороших специалистах есть: опытный дата-сайентист может сильно сократить расходы или принести компании ощутимую прибыль.
Даже если в малом бизнесе Data Science не так востребован, большие компании развиваются и нуждаются в новых профессионалах. А новые профессионалы снова помогают компании расти и масштабироваться. Поэтому и спрос на дата-сайентистов в ближайшие годы будет только расти.
Сколько зарабатывает Data Scientist
На ноябрь 2024 года на сайте hh.ru предлагают зарплату для дата-сайентистов от 135 000 рублей.
«Хабр Карьера» оценивает среднюю зарплату Data Scientist в 210 000 рублей. Junior Data Scientist получает 120 000, middle — 225 000, а senior — 364 000 рублей.
Плюсы и минусы профессии
Дата-сайентисты много зарабатывают и могут влиять на весь бизнес, но минусы у профессии тоже есть.
Это сложная специальность, для которой нужно много знать даже для старта. С другой стороны, преодолев первоначальный барьер, становится проще.
Новизна Data Science — это одновременно плюс и минус. Можно решать разнообразные и интересные задачи, применять творческий подход к поиску решений. При этом широкие компетенции дата-сайентиста часто выглядят непонятно для коллег. Поэтому возможно, что свою пользу первое время придётся часто подтверждать фактами.
Иногда у заказчиков могут быть завышенные ожидания от дата-сайентистов. Например, что компания из убыточной станет прибыльной благодаря исследованиям. Но Data Science просто работает с данными и даёт ответы, а на сам бизнес могут влиять сотни факторов. При этом специалисты по работе с данными действительно могут найти проблемы в данных и улучшить финансовое положение, но гарантировать это нельзя.
Рекомендации по обучению и развитию в Data Science
Для старта нужно начать учиться техническим скилам: математике, программированию и машинному обучению.
Обучаться можно самостоятельно, по книгам, статьям и видео в интернете. Когда накопите какую-то базу, стоит сходить на несколько собеседований и начать выполнять тестовые задания — просто чтобы посмотреть, на каком вы уровне. Потом можно подтянуть те навыки, которых не хватает, и снова откликнуться на открытые вакансии.
Если хотите попробовать погрузиться в обучение серьёзно и сразу поработать с реальными задачами, которыми занимаются в этой профессии, посмотрите подборку курсов Практикума по Data Science. За время обучения можно будет подготовить проекты в портфолио, а со сложными задачами помогут наставники.
Почти во всех курсах есть бесплатная часть, чтобы попробовать и решить, насколько вам это подходит.