Кто такой Data Scientist
easy

Кто такой Data Scientist

Что он делает, сколько получает и что нужно для этого знать

Сегодня рассказываем о специалистах по Data Science: чем нужно заниматься, как это связано с биг-датой, что выучить и насколько прибыльна эта профессия сегодня.

Что такое Data Science

Если переводить дословно, Data Science — это наука о данных. Это сфера, которая занимается обработкой Big Data — больших объёмов информации, проще говоря, работает с биг-датой. 

Data Science работает со всей информацией, которую получает бизнес: отчёты о продажах из CRM, данные опросов пользователей, демографические и региональные показатели, статистика метрик и показателей. Первоначальная необработанная информация называется сырой, а если данные привести к одному виду, разложить и очистить через фильтры, то это уже обработанные данные.

Data Science работает с информацией любого вида — и конечной целью этой науки является получение новых полезных знаний о компании, явлении или исследовании, прогнозов и ответов на вопросы, которые могут продвинуть всё это в развитии. Эти знания и ответы потом ложатся в основу планирования конкретных действий. 

Data Science тесно связана со многими другими сферами и профессиями IT, например аналитикой и инженерией данных. Аналитики данных тоже ищут ответы на вопросы в большом количестве информации, а инженеры помогают доставить всю информацию в специальные хранилища, с которыми потом можно работать. 

Кто такой специалист по Data Science

Data Scientist (он же дата-сайентист) — это специалист по обработке данных, работающий в трёх разных направлениях.

Computer science, или компьютерные науки. Это область всего, что связано с IT: программирование, базы данных, автоматизация процессов.

Математика. Для прогнозирования и построения гипотез в Data Science используется статистика, теория вероятностей, линейная алгебра и математический анализ.

Бизнес-экспертиза. Нужно разбираться в принципах работы компании, где работает специалист Data Science. Это не техническая, но тоже важная дисциплина. Нельзя помочь бизнесу стать лучше, если не понимаешь, как он устроен.

Дата-сайентисту необязательно разбираться в программировании и математике на уровне сеньоров-разработчиков или докторов математических наук. Достаточно иметь крепкие знания по основным разделам — а если в ходе работы появится какая-то сложная задача, то можно глубже разобраться именно в ней и поднять необходимый навык на нужный уровень.

👉 Бизнес-экспертиза часто зависит от компании, поэтому при выходе на новое место работы дата-сайентист должен посвятить достаточное количество времени пониманию бизнеса.

Задачи и обязанности Data Scientist

Data Scientist берёт массив существующих показателей и пытается вывести из них полезные для бизнеса закономерности и прогнозы. Данные могут быть любыми: текст, видео, фото, таблицы.

Вот как могут звучать обобщённые задачи дата-сайентиста:

  • вычислить популярные поисковые запросы;
  • посчитать вероятность перехода на целевую страницу;
  • спрогнозировать спрос заказов на даты распродажи;
  • найти самые часто задаваемые вопросы от клиентов;
  • построить систему персональных рекомендаций пользователям.

Набор данных называется датасетом. Посмотреть их примеры можно на сайте kaggle.com. Вот небольшой датасет, который мы использовали для анализа фильмов в статье про DC и Marvel:

Кто такой Data Scientist

Некоторые задачи можно решить и без Data Science, например спрогнозировать примерный спрос на праздники. Но тогда это придётся делать, опираясь на опыт и интуицию. Data Science использует гораздо большее количество данных, чем может вместить голова среднего человека, поэтому прогнозы и результаты будут надёжнее.

Чтобы всё это делать, нужны модели машинного обучения.

Что такое модели и как они выглядят

ML-модель — это машинный алгоритм, способный обучаться на тех данных, которые ему выдают разработчики и инженеры.

Модель изучает данные разными методами и умеет находить закономерности и связи между ними. После обучения программа может строить прогнозы, анализировать и выявлять определённые действия, например попытки мошеннических операций в банках.

Это большая сложная тема, которую мы разберём в отдельной статье. Пока что достаточно запомнить, что модель — это код, который принимает на вход данные, учится и становится инструментом анализа.

Чем всё это отличается от других схожих профессий

Работа в Data Science часто переплетается с работой инженеров и аналитиков данных, ML-инженеров и бизнес-аналитиков.

Эти специалисты действительно имеют практически одинаковый базовый набор навыков, но разница в том, насколько хорошо они владеют каждым из них. У всех профессий есть что-то, на чём она сосредоточена.

Для примера сравним специалиста Data Science с двумя другими специальностями: инженер машинного обучения и аналитик данных. Сравнивать будем по 5 навыкам:

  • математика и статистика;
  • программирование;
  • понимание бизнеса;
  • коммуникации с командой, визуализация данных для презентации коллегам;
  • обработка данных — извлечение, подготовка, загрузка в хранилище.

Аналитик данных

Аналитик данных — человек, который задаёт правильные вопросы и ищет ответы в данных. Для этого он много общается с клиентами и командой и углубляется в работу бизнеса вместо технологий.

Математика. Аналитику данных нужны основы статистики и вероятности, чтобы правильно интерпретировать данные и строить графики, но чаще всего ему не обязательно углубляться в алгоритмы и сложные математические модели.

Программирование понадобится на базовом уровне: нужно владеть SQL, Excel, основами Python. Основной фокус аналитика данных — не программирование, а визуализация и интерпретация данных.

Понимание бизнеса должно быть настолько высоким, что аналитик часто разбирается в работе компании лучше её собственника. Аналитику важно понимать бизнес-задачи, потому что он работает с интерпретацией данных для принятия бизнес-решений. Его работа может напрямую влиять на стратегические решения компании.

Коммуникация с коллегами и визуализация результатов тоже один из ключевых навыков для аналитиков. Для выявления нужной информации часто нужно много общаться с заказчиками и коллегами, чтобы понять, какие данные важны для их задачи и как с ними работать. А чтобы предоставить команде и клиентам итоги работы, аналитик должен уметь показать их понятным и наглядным образом.

Обработка данных. Аналитик должен уметь очищать и форматировать данные, но обычно это делается на уровне SQL и базовых операций в Python и Excel.

Если распределить очки навыков как в компьютерной игре, чтобы прокачаться в аналитике данных, получится примерно так:

Кто такой Data Scientist

Инженер машинного обучения

Инженер машинного обучения — больше программист, чем аналитик. Он сосредоточен на технологических инструментах.

Математика нужна в этой профессии для понимания работы моделей и их оптимизации, но ML-инженер не работает с гипотезами для бизнеса и прогнозами. Поэтому для него это не такая важная дисциплина, как для дата-сайентиста.

Программирование — основа работы ML-инженеров. Им нужно уметь не только программировать, но и оптимизировать код, работать с крупными системами и потоками данных.

Понимание бизнеса нужно общее, без глубокого погружения. Достаточно понимать, как построить продукт, учитывая потребности. Но бизнес-задачи обычно формулируют дата-сайентисты и аналитики.

Коммуникации с командой важны для ML-инженера при обсуждении деталей работы модели с командой. Визуализация данных в их компетенции обычно не входит.Обработка данных. ML-инженер работает с процессами извлечения, подготовки и загрузки данных с фокусом на автоматизацию и потоковые данные, чтобы модели могли стабильно обновляться.

Кто такой Data Scientist

А Data  Scientist — кто это?

Дата-сайентист — это кто-то вроде аналитика с дополнительными навыками разработчика и инженера машинного обучения на основном уровне.

Математика и статистика — ключевые дисциплины DS, особенно если прибавить к ним аналитическое мышление. Дата-сайентист работает с моделями, оценкой гипотез, интерпретацией результатов и выбором правильных алгоритмов.

Программирование понадобится на уровне, достаточном для работы с данными, построения и тестирования моделей. Чаще всего DS-специалисты используют Python и библиотеки для работы с данными: pandas, NumPy, TensorFlow.

Понимание бизнеса важно для дата-сайентиста, чтобы знать, какие данные использовать и как интерпретировать результаты. 

Коммуникации с командой и визуализация данных. Дата-сайентисты часто презентуют результаты исследований, поэтому должны уметь объяснить их и хорошо представить визуально. Но их основная задача — работа с данными и моделями, а не людьми.

Обработка данных — одна из ежедневных задач в Data Science. Нужно уметь работать с очисткой, объединением и предварительной обработкой данных, чтобы подготовить их для анализа.

Кто такой Data Scientist

Что нужно для старта в Data Science

Необходимые навыки и знания для старта получаются серьёзные, но не настолько, чтобы не попробовать свои силы в этом направлении. Получить необходимую экспертность реально за несколько месяцев, если это действительно будет интересно.

Вот нужные навыки:

  • Программирование на Python и язык запросов SQL для работы с моделями и получения нужной информации в базах данных.
  • Математика и статистика для работы с гипотезами.
  • Фреймворки для машинного обучения.
  • Желательно уметь работать с инструментами для обработки больших данных.
  • Английский сильно упростит обучение, потому что много хороших материалов лежит в открытом доступе, но без перевода. Но можно обойтись и онлайн-переводчиками, тут некритично.

Требования к джуниору, мидлу и сеньору различаются примерно так же, как в большинстве других IT-направлений.

Джуниор должен иметь стартовые знания технологий, чтобы влиться в команду и потихоньку брать часть задач более опытных коллег, начать работать со всеми инструментами.

Мидл должен уметь решать некоторые задачи самостоятельно. Для этого понадобятся не только уверенные технологии, но и более глубокое погружение в бизнес и понимание сути работы с гипотезами и экспериментами, чтобы уметь выстраивать прогнозы и проводить исследования.

Сеньор должен уметь решить задачу полностью самостоятельно или собрать команду. Со временем специалист этого уровня может углубиться в управление командой и обучение дата-сайентистов уровней джуниор и мидл. 

Где работает Data Scientist

Дата-сайентисты приносят больше всего пользы в крупных компаниях.

Специалисты по работе с Big Data приводят в порядок большие массивы показателей. Причём могут работать и с обработанными данными, и сырыми — то есть той информацией, которую только достали из точек сбора данных и ещё не успели обработать и привести к одному виду.

В стартапах и бизнесе среднего размера не всегда целесообразно внедрять таких специалистов, потому что информации и данных часто бывает недостаточно для обработки их моделями машинного обучения. Поэтому для начала в таких компаниях нужно наладить сбор данных и их обработку менее затратными средствами — например, через бизнес-аналитику или аналитику данных.

Другой вариант для небольших компаний и стартапов — когда один человек совмещает функции нескольких. Например, аналитика данных, разработчика и Data Scientist.

Востребованность и перспективы профессии

Data Scientist — молодая профессия, которая может серьёзно продвинуть бизнес вперёд. Поэтому и потребность в хороших специалистах есть: опытный дата-сайентист может сильно сократить расходы или принести компании ощутимую прибыль.

Даже если в малом бизнесе Data Science не так востребован, большие компании развиваются и нуждаются в новых профессионалах. А новые профессионалы снова помогают компании расти и масштабироваться. Поэтому и спрос на дата-сайентистов в ближайшие годы будет только расти.

Сколько зарабатывает Data Scientist

На ноябрь 2024 года на сайте hh.ru предлагают зарплату для дата-сайентистов от 135 000 рублей.

Кто такой Data Scientist

«Хабр Карьера» оценивает среднюю зарплату Data Scientist в 210 000 рублей. Junior Data Scientist получает 120 000, middle — 225 000, а senior — 364 000 рублей.

Кто такой Data Scientist

Плюсы и минусы профессии

Дата-сайентисты много зарабатывают и могут влиять на весь бизнес, но минусы у профессии тоже есть.

Это сложная специальность, для которой нужно много знать даже для старта. С другой стороны, преодолев первоначальный барьер, становится проще.

Новизна Data Science — это одновременно плюс и минус. Можно решать разнообразные и интересные задачи, применять творческий подход к поиску решений. При этом широкие компетенции дата-сайентиста часто выглядят непонятно для коллег. Поэтому возможно, что свою пользу первое время придётся часто подтверждать фактами.

Иногда у заказчиков могут быть завышенные ожидания от дата-сайентистов. Например, что компания из убыточной станет прибыльной благодаря исследованиям. Но Data Science просто работает с данными и даёт ответы, а на сам бизнес могут влиять сотни факторов. При этом специалисты по работе с данными действительно могут найти проблемы в данных и улучшить финансовое положение, но гарантировать это нельзя.

Рекомендации по обучению и развитию в Data Science

Для старта нужно начать учиться техническим скилам: математике, программированию и машинному обучению.

Обучаться можно самостоятельно, по книгам, статьям и видео в интернете. Когда накопите какую-то базу, стоит сходить на несколько собеседований и начать выполнять тестовые задания — просто чтобы посмотреть, на каком вы уровне. Потом можно подтянуть те навыки, которых не хватает, и снова откликнуться на открытые вакансии.

Если хотите попробовать погрузиться в обучение серьёзно и сразу поработать с реальными задачами, которыми занимаются в этой профессии, посмотрите подборку курсов Практикума по Data Science. За время обучения можно будет подготовить проекты в портфолио, а со сложными задачами помогут наставники.

Почти во всех курсах есть бесплатная часть, чтобы попробовать и решить, насколько вам это подходит.

Обложка:

Алексей Сухов

Корректор:

Ирина Михеева

Вёрстка:

Кирилл Климентьев

Соцсети:

Юлия Зубарева

Получите ИТ-профессию
В «Яндекс Практикуме» можно стать разработчиком, тестировщиком, аналитиком и менеджером цифровых продуктов. Первая часть обучения всегда бесплатная, чтобы попробовать и найти то, что вам по душе. Дальше — программы трудоустройства.
Получите ИТ-профессию Получите ИТ-профессию Получите ИТ-профессию Получите ИТ-профессию
Вам может быть интересно
easy