Как стать ML-инженером в 2026 году: от Python до первого оффера

Полный гайд, чтобы вкатиться в data science на роль ML-инженера

Как стать ML-инженером в 2026 году: от Python до первого оффера

Пока фронтенд и часть бэкенда переживают волну сокращений, data science в России находится в другой ситуации. Крупные компании рассматривают ML-системы как прямой источник прибыли: модели рекомендаций, детекция фрода, динамическое ценообразование — всё это приносит деньги здесь и сейчас. Поэтому найм не останавливается. А поскольку в России специалистов традиционно меньше, чем нужно рынку, конкуренция за сильных кандидатов идёт в вашу пользу.

В статье собрали путь из семи этапов с нуля до первого оффера: от математики и Python до деплоя модели в продакшн. Каждый этап — конкретные темы, критерий перехода и сколько времени реально уйдёт на обучение.

Средний оффер у людей, которые прошли полный цикл подготовки по этому ML-стеку, составляет 250 тысяч рублей. Верхняя планка для тех, кто выходит на валютную удалёнку, — 7–10 тысяч долларов в месяц.

Теперь главное: кому этот роадмап подходит, а кому — нет.

Почему именно ML-инженер, а не просто data scientist

Data science — широкая область. Внутри неё четыре основных роли: аналитик данных, инженер данных, исследователь и ML-инженер. Этот роадмап — про последнего.

ML-инженер проектирует и запускает модели в продакшн. Если аналитик помогает бизнесу принимать решения на основе данных, а инженер данных строит инфраструктуру под эти данные, то ML-инженер — тот, кто берёт всё это и делает из этого работающий сервис.

В российских реалиях ML-инженер редко делает что-то одно. Ему нужно и понимать данные как аналитик, и уметь задеплоить модель как разработчик, и объяснить бизнесу, зачем вообще это нужно. Швейцарский нож, если коротко.

Именно под этот профиль выстроены все этапы ниже — Python, SQL, Classic ML, Deep Learning, ML System Design и деплой.

Роадмап рассчитан на два типа читателей.

  1. Человек без IT-опыта, который хочет войти в data science с нуля. Реалистичный срок до первого оффера: 6–12 месяцев при системном подходе. Без структуры те же темы растягиваются на 12–18 месяцев, а иногда заканчиваются третьим пересмотром курса по питону без единого собеседования.
  2. Разработчик или аналитик, который хочет переехать в DS. Свитчер из разработки уже понимает, что такое продакшн и кодовая база. Свитчер из аналитики понимает метрики и умеет объяснять бизнесу ценность данных. Оба стартуют с форой — реальный срок сокращается примерно на треть.

Главная ошибка: учить слишком много одного

Есть типичный кейс, который повторяется регулярно: человек полгода учит Python и вроде бы знает его хорошо: декораторы, генераторы, асинхронность. На технический вопрос по Python отвечает уверенно, но гораздо хуже про SQL и ML System Design. Проблема не в том, что Python лишний, а в том, что те два-три месяца, которые ушли на его шлифовку сверх нужного уровня, можно было потратить на SQL и базовый MLSD — и уже получить оффер.

Это и есть концепция красной линии. Для найма важен не максимум знаний в одной теме, а достаточный уровень по всем одновременно. 

Как стать ML-инженером в 2026 году: от Python до первого оффера

Посмотрите на график выше: по вертикали — уровень знаний, по горизонтали — дисциплины. Красная линия — это минимальный порог по каждой из них, после которого вас возьмут на работу.

Если хотите быстро проверить свои знания и постоянно тренироваться — используйте ChatGPT и аналогичные инструменты, они позволяют буквально промоделировать собеседование после каждой темы — записать транскрипт, попросить модель погонять вас по материалу и найти слабые места. Это не замена реальным собесам, но хорошая промежуточная проверка между ними.

Этап 1 — Математика: одна-две недели, не больше

Математика — главный источник страха у всех, кто смотрит на data science снаружи. Форумы, чужие LinkedIn- или тг-посты и некоторые преподаватели формируют ощущение, что без аспирантуры по математике в DS делать нечего. Это неправда.

Вот список того, что нужно понять для старта.

  • Из математического анализа — что такое производная и что такое градиент. Это почти одно и то же понятие, только градиент обобщает производную на многомерный случай. Нужно понимать не формулы вывода, а смысл: производная показывает, как функция меняется при изменении аргумента. Именно на этом работает обучение любой модели.
  • Из линейной алгебры — что такое вектор и матрица, какие над ними есть операции и что скалярное произведение двух векторов означает содержательно, а не просто как посчитать. Это нужно, чтобы понимать, как данные представляются внутри модели.
  • Из теории вероятностей и математической статистики — какие бывают распределения и откуда они берутся, что такое статистическая значимость, что такое выборка. Поверхностно, на уровне одного параграфа каждая тема.
  • Отдельно стоит потратить несколько дней на методы оптимизации — не поверхностно, а с пониманием. Градиентный спуск, как он работает, почему именно так. На собеседованиях это спрашивают не в разделе математики, а в разделе про модели: как обучается линейная регрессия, почему лосс ведёт себя так, что нужно сделать, чтобы модель сошлась. Без понимания оптимизации эти вопросы не закрыть.
  • И ещё один момент, который стоит разобрать отдельно — метод максимального правдоподобия. Он кажется абстрактным, пока не столкнёшься с логистической регрессией. Там сразу станет понятно, откуда берётся log-loss и зачем всё это нужно.

Критерий перехода к этапу 2: вы понимаете, что такое градиентный спуск и зачем нужна производная при обучении модели.

Этап 2 — Python и алгоритмы: четыре-шесть недель

Python в data science нужен, чтобы решать задачи достаточно уверенно, пока голова занята моделями, а не синтаксисом. На собеседованиях питон проверяют на двух уровнях. Первый — теоретические вопросы про устройство языка. Второй — живое решение алгоритмических задач.

Что учить из теории Python

Вот темы, которые спрашивают: 

  • Типы данных и то, как Python хранит объекты в памяти — ссылочная модель, изменяемые и неизменяемые типы.
  • Разница между списком и кортежем — не в том, что один менять можно, а другой нет, а почему это вообще сделано именно так.
  • Хеш-таблицы: как устроены, почему словарь работает быстро.

Дальше — декораторы и генераторы. Их любят спрашивать на всех уровнях, и здесь важно именно понимание механики, а не умение написать по памяти. Асинхронность: GIL, мультипроцессинг, async/await. Не нужно знать все нюансы, но понимать разницу между потоками и процессами в Python и почему GIL это важно — обязательно.

Если идёте в исследовательский отдел или R&D, могут спросить про внутреннее устройство числа в Python — как оно хранится в памяти, что такое PyObject. Для большинства позиций это избыточно, но знать, что такое вопрос существует, полезно.

Алгоритмы: что спрашивают 

Для большинства DS-позиций в средних и крупных компаниях алгоритмические задачи несложные. 

  • Нотация O(n) — обязательно, причём не абстрактно, а применительно к моделям: почему self-attention в трансформерах работает за O(n²), это спрашивают часто
  • Хешмапы и базовые структуры данных. 
  • Two pointers и скользящее окно.
  • Связные списки.

Задачи на собеседованиях обычно комбинируют две концепции: хешмапа плюс связный список, two pointers плюс скользящее окно. Задача уровня easy — одна концепция, medium — две в связке. Советуем решить около 50–100 таких задач, чтобы набрать насмотренность — видеть структуру и понимать, какой инструмент применить.

Как учить в 2026 году

Здесь есть конкретный рабочий подход, который сокращает время в разы. Берёте задачу на LeetCode уровня easy. Если не решается — открываете форум, берёте решение, копируете в ChatGPT и просите объяснить: почему именно так, какой алгоритм, что происходит в каждой строке. Если в объяснении встречается незнакомая конструкция — тут же спрашиваете про неё. Одна задача может дать два-три новых понятия, которые разбираете сразу по цепочке.

Критерий перехода к этапу 3: решаете задачи уровня medium на LeetCode без подсказок. Заодно вы уже готовы к алгоритмической секции на большинстве DS-собеседований — а это примерно 40% всего, что там спрашивают.

Этап 3 — SQL: одна-две недели

SQL недооценивают особенно те, кто идёт в data science через курсы по Python и сразу прыгает к моделям. Потом на собеседовании выясняется, что оконные функции — тёмный лес. Хорошая новость: SQL осваивается быстро. Нет ничего принципиально сложного, если заниматься последовательно.

Вот что нужно знать. 

  • Синтаксис и базовые запросы — само собой.
  • JOIN-ы всех типов с пониманием, что происходит с данными при каждом из них. Фильтрация, подзапросы, агрегации.
  • И оконные функции — это отдельная тема, которую нужно разобрать нормально, не по верхам.

Здесь есть одна важная развилка в зависимости от того, куда именно вы целитесь.

Если идёте в Classic ML — аналитика данных, рекомендательные системы, классификация, предсказание оттока — SQL нужен полностью. Данные надо уметь вытаскивать, джойнить, агрегировать, писать сложные запросы с окнами. На собеседованиях это проверяют отдельной секцией.

Если целитесь в NLP или работу с языковыми моделями — SQL можно брать в урезанном объёме. Достаточно понимать синтаксис и подзапросы, потому что данные всё равно приходится где-то доставать, но глубокая аналитика через SQL там нужна реже.

Критерий перехода к этапу 4: пишете оконные функции без гугла и понимаете, что происходит с данными в каждом типе JOIN.

Полезный блок со скидкой

Следующие этапы (с 4 по 7 — самые хардовые) вы можете пройти с проверкой на реальных задачах — курс ML-инженер от Яндекс Практикума за 12 месяцев закрывает полный цикл обучения: от обучения до деплоя через Docker, FastAPI и Yandex Cloud, с 18 проектами в портфолио на выходе. 

Это способ получить структурированную обратную связь там, —  держите промокод Практикума на любой платный курс: KOD (можно просто на него нажать). Он даст скидку при покупке и позволит сэкономить на обучении.

Этап 4 — Classic ML: шесть-восемь недель

Здесь больше всего тем, здесь глубже всего копают на собеседованиях, и именно здесь большинство кандидатов либо проходят отбор, либо нет.

Начинается всё с фундамента — линейной регрессии — именно через неё понимаешь, как вообще устроено машинное обучение: есть функция с параметрами, параметры меняются в процессе обучения, качество измеряется через функцию потерь, минимизируется через градиентный спуск. Всё остальное — надстройка над этой идеей.

После регрессии идёт классификация. Логистическая регрессия, метрики классификации — и вот здесь важный момент, который стоит выделить отдельно.

Метрики нужно знать как инструмент принятия решений: что происходит с метриками при дисбалансе классов, чем отличается ROC-AUC от PR-AUC и в каком случае какую смотреть. На практике именно метрики показывают, насколько хорошо работает модель — и именно с них начинается любой разговор про ML System Design на собеседовании.

SVM — метод опорных векторов — разбирается здесь же. Не как основной рабочий инструмент, а как способ понять идею разделяющей гиперплоскости и margin. Это помогает думать про классификацию в целом.

Ансамбли

Следующий уровень — ансамблевые методы. Деревья решений как базовый строительный блок. Затем три типа ансамблей: бэггинг, бустинг, стекинг.

Из бэггинга — Random Forest, понять идею: много деревьев, каждое обучается на случайной подвыборке данных и случайном подмножестве признаков, итоговый ответ — голосование. Из бустинга — градиентный бустинг, и вот здесь нужно остановиться.

На собеседованиях очень любят спрашивать: что именно в градиентном бустинге является градиентом, а что — бустингом. Это не абстрактный вопрос — он проверяет, понимаете ли вы, что каждое следующее дерево обучается на остатках ошибки предыдущего, и что минимизация этой ошибки происходит через градиентный спуск в пространстве функций, а не параметров. Разобраться с этим стоит нормально, не по верхам.

Из фреймворков — CatBoost, XGBoost, LightGBM. Их нужно потыкать руками, понять основные гиперпараметры и чем они отличаются по устройству.

И отдельно — Bias-Variance Tradeoff. Что такое смещение и разброс, как они связаны со сложностью модели, что происходит при переобучении и недообучении. Если идёте именно в Classic ML, здесь копают глубоко.

Работа с данными

Параллельно с моделями идёт блок по работе с данными — EDA, разведочный анализ. Его не выучивают отдельно, он нарабатывается в процессе: смотришь на данные, строишь распределения, ищешь аномалии, проверяешь пропуски. Этот навык нужен на каждом этапе работы дата-сайентиста, поэтому практиковаться лучше с самого начала.

Сюда же входят методы снижения размерности — PCA как основной. Идея: из 150 признаков сделать 50, сохранив максимум информации. На собеседованиях спрашивают не часто, но понимать нужно.

И методы кластеризации — KMeans и DBSCAN. KMeans разбивает данные на K заданных кластеров, DBSCAN находит кластеры произвольной формы. Разница в том, что KMeans требует задать число кластеров заранее, DBSCAN — нет.

Критерий перехода к этапу 5: можете объяснить, в чём градиент в градиентном бустинге, назвать три метрики классификации с объяснением когда какую применять, и рассказать про Bias-Variance Tradeoff без конспекта.

Этап 5 — Deep Learning и выбор специализации

Здесь роадмап разветвляется. Дальнейший путь зависит от того, в какую сторону вы хотите двигаться: Classic ML или NLP и языковые модели. Это разные профили с разными требованиями на собеседованиях.

Но сначала — то, что нужно всем без исключения.

Что учат все: трансформеры и Attention

Трансформеры изменили область машинного обучения сильнее, чем что-либо за последние десять лет. Их спрашивают везде — даже на собеседованиях в Classic ML. Поэтому базовое понимание архитектуры обязательно для любого дата-сайентиста в 2026 году.

Что нужно понять. Как устроен механизм Attention — не формулу, а идею: каждый токен в последовательности смотрит на все остальные и взвешивает их по значимости. Почему self-attention работает за O(n²) по числу токенов — это про то, что каждый токен сравнивается с каждым, отсюда квадратичная сложность. Этот вопрос на собеседованиях встречается регулярно.

Для Classic ML этого достаточно. Дальше идёт ML System Design, и об этом — в следующем разделе.

NLP и LLM-трек: что учат дополнительно

Если выбираете направление языковых моделей, агентов и NLP — список расширяется, и здесь нужно погружаться глубже.

  • Сверточные сети и их роль в обработке последовательностей. Как устроены трансформеры с пониманием каждого блока: embeddings, positional encoding, multi-head attention, feed-forward слои.
  • Дообучение готовых моделей под бизнес-задачи — Supervised Fine-Tuning, SFT. Это про то, как взять открытую модель и адаптировать её под конкретную задачу с минимальным набором размеченных данных.
  • RAG — Retrieval-Augmented Generation. Идея: вместо того чтобы хранить все знания в параметрах модели, при каждом запросе достаём релевантные документы из внешней базы и подаём их в контекст. Это сейчас один из основных паттернов в продакшн-системах на основе LLM.
  • Векторные базы данных — как они устроены, зачем нужны, чем отличаются от обычных. Это инфраструктура под RAG и семантический поиск.
  • Агенты — что такое агентная архитектура, какие паттерны существуют, как несколько агентов взаимодействуют между собой. MCP и Tool Calling — как модель вызывает внешние инструменты и почему это важно для продакшн-систем.
  • Из фреймворков — LangChain и LangGraph. На них сейчас пишется большинство агентных систем в реальных проектах.

Критерий перехода для Classic ML-трека к этапу 6: можете объяснить, как работает Attention и почему self-attention квадратичный. Для NLP-трека: можете описать архитектуру RAG-системы от запроса до ответа и объяснить, зачем нужна векторная база данных.

Этап 6 — ML System Design: учить параллельно с этапом 4

MLSD — самое недооценённое и при этом самое весомое на собеседованиях в 2026 году. Его стали спрашивать везде: и в крупных компаниях, и в стартапах, и на позиции джуна, хотя глубина ожиданий там ниже. За последние несколько лет требования к дата-сайентистам изменились. Раньше от джуна ждали умения обучить модель на данных и показать метрику. Сейчас ждут понимания, зачем вообще эта модель нужна бизнесу, как её результат измерить в деньгах или бизнес-показателях, и как это всё задеплоить и проверить в продакшне.

Структура ответа всегда одна и та же, и её нужно знать до автоматизма.

  1. Бизнес-постановка. Что хочет бизнес, какие ограничения, что можно и что нельзя делать в рамках задачи: без этого непонятно, что вообще оптимизировать.
  2. Метрики. Здесь три уровня. Бизнес-метрики — выручка, конверсия, отток. Онлайн-метрики — то, что можно измерить в продакшне на живых пользователях в реальном времени. Офлайн-метрики — то, что считается на тестовой выборке до деплоя. Важный нюанс: хорошая офлайн-метрика не всегда совпадает с онлайн, и понимание этого разрыва — один из любимых вопросов интервьюеров.
  3. Данные. Какие данные есть, каких не хватает, как их собирать.
  4. Baseline. Самое простое решение, которое можно сделать быстро и запустить в продакшн за день, которое хоть как-то работает и задаёт точку отсчёта.
  5. Архитектура и итеративное улучшение. Как двигаться от baseline к нормальному решению шаг за шагом.
  6. Деплой и AB-тест. Как проверить, что новая модель действительно лучше старой на живых пользователях, а не только на тестовой выборке.

Критерий перехода к этапу 7: прошли хотя бы один mock MLSD-интервью и получили внятный фидбек. Можно через ChatGPT, можно через знакомого сеньора, можно через сообщества в Telegram. Главное — не теория в вакууме, а разбор реального кейса.

Этап 7 — Деплой: базовый уровень, но пропускать нельзя

Деплой — это то, что отделяет модель в ноутбуке от модели, которая реально работает и приносит деньги. Пять лет назад джуна это почти не спрашивали. Сейчас спрашивают, и тенденция идёт в сторону углубления требований, особенно в NLP-направлении.

Для старта не нужно знать DevOps на уровне инженера инфраструктуры. Нужно понимать, как это устроено в целом, и уметь задеплоить хотя бы один pet-проект самостоятельно.

Что учить

  • Docker — первый и главный инструмент. Понять, что такое контейнер, чем он отличается от виртуальной машины, как написать Dockerfile, как собрать образ и запустить его. Это не сложно и осваивается за несколько дней практики.
  • FastAPI — фреймворк для создания REST API на Python. В DS он используется как обёртка вокруг модели: принимает запрос, прогоняет через модель, возвращает предсказание. Понять базовый роутинг, как принимать данные на вход и что возвращать — этого достаточно.
  • CI/CD — на уровне понимания идеи. Что такое пайплайн, как изменения в коде автоматически проходят тесты и деплоятся. Не нужно уметь настраивать GitHub Actions с нуля, но понимать, что происходит между коммитом и продакшном — обязательно.
  • Kafka и Hadoop — на уровне базовой осведомлённости. Что это такое, зачем нужны, в каких задачах применяются. На собеседованиях для джунов в это редко уходят глубоко, но если встретится вопрос — не должно быть полного ступора.

Как учить

Здесь работает тот же подход, что с алгоритмами: берёте реальную задачу, задеплоиваете модель из предыдущих этапов в Docker-контейнер, оборачиваете FastAPI. Всё, что непонятно по ходу — разбираете через ChatGPT построчно. Один задеплоенный проект даёт больше понимания, чем три прочитанных туториала.

Критерий перехода к офферу: есть хотя бы один проект, который запускается в Docker и принимает запросы через API. Не идеальный, не production-ready — просто работающий.

Три сценария: как движется обучение в зависимости от старта

Роадмап один, но скорость и болевые точки у всех разные. Вот три реальных сценария.

Сценарий 1 — Новичок без IT-опыта

Это самый долгий путь, и здесь важно не питать иллюзий. Реалистичный срок при системном подходе — 6–12 месяцев. Без структуры и внешней проверки знаний те же темы растягиваются на 12–18 месяцев, а нередко заканчиваются тем, что человек застревает на имитации: обучает модель на Титанике, считает это портфолио и не понимает, почему не зовут на собеседования.

Типичная траектория без системы выглядит так. Первые недели — эйфория: Python идёт легко, всё понятно, кажется что через три месяца уже оффер. Потом наступает яма: задачи становятся сложнее, прогресс замедляется, мотивация падает. Примерно половина уходит именно здесь. Те, кто остаётся, часто попадают в ловушку имитации — делают учебные проекты, не ходят на собеседования, ждут момента когда будут готовы. Этот момент не наступает сам по себе.

Вам может помочь внешняя структура в виде ментора или группы, регулярные mock-собеседования начиная с середины пути, и главное — первый реальный собес как можно раньше. Фидбек от реального интервьюера стоит больше месяца самостоятельного обучения.

Сценарий 2 — Свитчер из разработки или аналитики

У свитчера из разработки уже есть понимание продакшна, умение читать чужой код и базовые алгоритмы. Python скорее всего знаком хотя бы поверхностно. Это сокращает первые два этапа роадмапа в разы.

Свитчер из аналитики приходит с другой форой: понимание метрик, умение разговаривать с бизнесом на его языке, опыт работы с данными. ML System Design для него будет даваться проще, чем для новичка, потому что он уже думает категориями бизнес-задач, а не просто моделей.

В обоих случаях путь примерно тот же, что у новичка, но быстрее на треть. Основные темы для доучивания — Classic ML, Deep Learning и MLSD. Деплой для бывшего разработчика скорее всего уже знаком. Матан для аналитика часто не проблема.

Есть один нюанс, который стоит отметить. Бывший тимлид в разработке, который переходит в DS джуном, поначалу может ощущать дискомфорт от смены уровня. Но техническая база и опыт работы в команде дают очень быстрый рост — быстрее, чем у классического новичка без опыта вообще.

Сценарий 3 — NLP и LLM-трек

Если цель — работать с языковыми моделями и агентами, базовый роадмап проходится полностью, плюс добавляется блок из этапа 5: трансформеры глубоко, fine-tuning, RAG, агенты, LangChain. Это плюс два-три месяца к общему сроку.

Зато этот трек сейчас один из самых востребованных. Компании активно ищут людей, которые умеют не просто вызвать API языковой модели, а выстроить вокруг неё нормальную систему: с retrieval, инструментами, оценкой качества и деплоем.

Матрица выбора по сценарию:

Кто выСрок до оффераГде будет сложнее всего
Новичок без IT6–12 месяцевАлгоритмы, не потерять темп в яме
Свитчер из разработки4–8 месяцевClassic ML и MLSD
Свитчер из аналитики4–8 месяцевАлгоритмы и деплой
Новичок, NLP-трек9–14 месяцевDeep Learning, RAG-архитектуры

Итого: что получите на выходе

Пройдя все этапы этого роадмапа, вы получаете конкретный стек, с которым реально выходить на рынок.

Python на уровне уверенного использования, понимание алгоритмов для прохождения технических секций. SQL для работы с данными. Classic ML с пониманием того, что и когда применять, и как объяснить выбор модели. Базовое понимание Deep Learning и трансформеров. MLSD как навык структурированного ответа на любой бизнес-кейс. Деплой на уровне Docker и FastAPI.

Data science в России сейчас в редкой ситуации: спрос растёт, специалистов не хватает, и направление защищено от волны IT-сокращений, потому что бизнес видит в нём прямую прибыль, а не просто расходы на инфраструктуру. Это не навсегда — рынок насытится, требования вырастут. Но сейчас окно открыто.

Последний практический совет: не ждите момента, когда будете готовы. Начинайте ходить на собеседования после SQL и базового Python. Получайте фидбек, доучивайте конкретные пробелы, повторяйте. 

Советуем дополнительно почитать по теме: 

Бонус для читателей

Если вам интересно погрузиться в мир ИТ и при этом немного сэкономить, держите наш промокод на курсы Практикума. Он даст вам скидку при оплате, поможет с льготной ипотекой и даст безлимит на маркетплейсах. Ладно, окей, это просто скидка, без остального, но хорошая.

Автор: Валерия Турчак
Вам может быть интересно
medium