Биг-дата — это русский вариант английского big data (большие данные). Смысл биг-даты в том, что у нас есть огромное количество данных о чём-то и мы на основе этих данных можем сделать какие-то выводы, что-то спрогнозировать или обучить нейронку.
Биг-дата — это не одно, а несколько разных направлений в ИТ. У них общая основа, но различаются инструменты и подход к работе. Рассказываем, чему учат на разных направлениях и где это будет полезно.
Коротко суть:
- в биг-дате есть несколько вариантов работы: стать аналитиком или стать инженером;
- аналитики обрабатывают данные и делают выводы, а инженеры — программируют нейросети и строят новые модели работы с данными;
- основа и там и там одна — Python и базы данных;
- аналитиков учат визуализировать данные — показывать их в наглядном виде, чтобы всё сразу было понятно;
- инженерам для работы нужно знать много математики и сложных алгоритмов — без этого писать нейронки не получится;
- вакансий на рынке много, зарплаты хорошие, перспективы есть.
Направления в биг-дате
Работа с биг-датой делится на аналитическую и инженерную.
Аналитики работают с уже собранными данными — приводят их в порядок, анализируют, строят графики и модели.
Инженеры и специалисты по Data Science делятся на две категории: те, кто занимается сбором данных, и те, кто потом занимается машинным обучением.
Что общего у всех
Все, кто работают с биг-датой, учатся сначала одним и тем же вещам: программированию, работе с базами данных и предварительной обработке.
Программирование. Основной язык, на котором работают почти все дата-сайентисты в мире, — это Python. На нём можно написать любой скрипт для обработки данных и подключить много готовых библиотек.
Базы данных. Все данные должны где-то храниться, и чаще всего это SQL-базы данных. С ними нужно уметь работать: брать данные, сохранять, фильтровать и т. д.
Предварительная обработка данных. Чтобы от данных был какой-то толк, с ними нужно предварительно поработать: проверить на дубли, пустые поля или неверные значения.
Это то, что было общего у всех. Теперь разное.
Чему учат аналитиков
Задача аналитика — обработать большой массив информации и сделать на его основе какие-то выводы. Примеры:
- какой товар и по каким причинам продаётся лучше всего;
- в какое время лучше всего привозить свежую выпечку, чтобы она не залёживалась на прилавке до вечера;
- какие метрики влияют на прибыль и выручку от клиента, а какие нет;
- какое решение лучше всего принять, исходя из имеющихся данных.
Чтобы презентовать результаты своей работы в понятном и наглядном виде, аналитики используют сервисы визуализации данных, например Tableau. А дальше — техники и методы анализа, чем дольше работаешь, тем больше в них вникаешь.
Как работают инженеры по сбору данных
Вообще, эту работу может сделать и аналитик, и инженер машинного обучения, но иногда сбор становится отдельной задачей. В этом случае инженер:
- пишет скрипт, который будет собирать информацию из нужных источников;
- настраивает базу данных;
- следит за правильностью собранных данных и корректирует скрипт, если что-то идёт не так;
- фильтрует данные, чтобы в базу попадало меньше мусора.
Для этого достаточно общих знаний из биг-даты плюс знание API того сервиса, откуда забираем данные. Но этому всё равно нужно учиться — сложно будет прийти в такой проект, если знаешь только базы данных или у тебя начальные навыки программирования на Python.
Чему учат и что делают специалисты по Data Science
У этих ребят задачи технически намного сложнее, потому что они чаще всего работают с нейросетями — обучают их или программируют самостоятельно. Для этого надо знать много математики:
- теорию вероятностей,
- статистику,
- математическую логику,
- матан,
- численные методы,
- работу с векторами и матрицами,
- теорию рядов.
Кроме этого, будущим дата-сайентистам дают углублённые знания Python и учат их работе с нейросетями. Это значит — много программирования, библиотеки, фреймворки, API, базы данных, тестирование и облачные вычисления. В итоге всё это позволяет разработчикам создавать нейросети, заниматься компьютерным зрением, искусственным интеллектом, голосовыми помощниками и вообще быть впереди компьютерной науки.
Что по работе и деньгам
В 2022 году спрос на тех, кто работает с биг-датой, такой:
- аналитик данных — 11 095 вакансий на hh.ru;
- дата-сайентист — 5790 вакансий;
- специалист по машинному обучению — 9331 вакансия.
По зарплатам вот средние цифры на второе полугодие 2022-го такие:
- машинное обучение — 170 тысяч рублей;
- бизнес-аналитика — 178 тысяч рублей;
- специалист по data science — 232 тысячи рублей.
Где научиться
Самый простой способ ворваться в биг-дату — прийти в Практикум на курсы «Аналитик данных» или «Специалист по Data Science». Учиться можно двумя способами:
Обучение в обычном темпе длится от 6 до 9 месяцев, на буткемпе — в 2-3 раза быстрее. На выходе у вас портфолио с учебными проектами, навыки для работы в отрасли и помощь карьерного центра.
Если интересно, как вообще устроены такие курсы, почитайте наш разбор обучения в Практикуме. Там всё как раз на примере курсов про биг-дату.