easy

Кто такой дата-сайентист

Если вы не знаете, чем заняться ближайшие 15 лет, — идите в дата-сайенс, помогите нейросетям захватить мир.

В последнее время на слуху два термина: биг дата и дата-саенс. Сегодня — что это такое и зачем нужно.

Большие данные

Начнём с простого — big data, или «большие данные». Это модный термин, обозначающий огромные массивы данных, которые накапливаются в каких-то больших системах.

Например, человек в Москве совершает 5-6 покупок по карте в день, это около 2 тысяч покупок в год. В стране таких людей, допустим, 80 миллионов. За год это 160 миллиардов покупок. Данные об этих покупках — биг дата.

В банках какой-то страны каждый день совершаются сотни тысяч операций: платежи, переводы, возвраты и так далее. Данные о них хранятся в центральном банке страны — это биг дата.

Ещё биг дата: данные о звонках и смс у мобильного оператора; данные о пассажиропотоке на общественном транспорте; связи между людьми в соцсетях, их лайки и предпочтения; посещённые сайты; данные о покупках в конкретном магазине (которые хранятся в их кассе); данные с шагомеров и тайм-трекеров; скачанные приложения; открытые вами файлы и программы… Короче, любой большой массив данных.

Почему появился такой термин: в конце девяностых компании в США стали понимать, что сидят на довольно больших массивах данных, с которыми непонятно что делать. И чем дальше — тем этих данных больше.

Раньше данные были, условно говоря, по кредитным картам, телефонным счетам и из профильных государственных ведомств; а теперь чем дальше — тем больше всего считается. Супермаркеты научились вести сверхточный учёт склада и продаж. Полиция научилась с высокой точностью следить за машинами на дороге. Появились смартфоны, и вообще вся человеческая жизнь стала оцифровываться.

И вот — данные вроде есть, а что с ними делать? Тут на сцену выходит дата-сайенс — дисциплина о больших данных.

Минутка занудства. Все знают, что правильно говорить «биг дэйта», потому что именно так произносят носители языка. Но в русском языке этот термин прижился с побуквенной транслитерацией — как написано, так и читаем. Поэтому — дата. Кстати, с сайентистами такого не произошло — они звучат так же, как в оригинале.

Дата-сайенс

Дата-сайентисты — люди, которые занимаются большими данными: находят закономерности и делают на их основе полезные для своей компании выводы.

Например, мы — управляющая компания магазина «Пятёрочка». В каком-то районе у нас открыто три магазина. Мы можем попросить дата-сайентиста проанализировать транзакции в наших магазинах и сделать прогноз, можно ли какие-то из них закрыть, сохранив общую выручку на прежнем уровне.

Или мы хотим открыть кофейню. У нас есть данные об общественном транспорте города, о положении кофеен в городе и стоимости аренды в разных домах. Мы можем попросить дата-сайентиста предсказать, где в городе не хватает кофеен относительно пассажирских потоков.

Допустим, мы мобильный оператор. Мы хотим сделать тариф «Юный хайпожор» для юных любителей отведать хайпа. Мы отдаём нашу клиентскую базу и данные о поведении клиентов дата-сайентисту, и тот считает нам экономику будущего тарифа и потенциальный объём рынка, а также помогает выделить самых голодных до хайпа людей.

Иногда эти ребята помогают с управлением в компаниях: они на основе данных пишут отчёты, которые показывают слабые места на производстве и дают рекомендации по их устранению. Или отвечают на вопросы из серии «Почему наши менеджеры так мало продают?» или «Где стоять продавцу-консультанту, чтобы к нему обращались чаще всего?».

Что знают и умеют дата-сайентисты

Вот начальный список навыков, знаний и умений, которые нужны любому дата-сайентисту для старта в работе.

Математическая логика, линейная алгебра и высшая математика. Без этого не получится построить модель, найти закономерности или предсказать что-то новое.

Есть те, кто говорит, что это всё не нужно, и главное — писать код и красиво делать отчёты, но они лукавят. Чтобы обучить нейронку, нужна математика и формулы; чтобы найти закономерности в данных — нужна математика и статистика; чтобы сделать отчёт на основе большой выборки данных — ну, вы поняли. Математика рулит.

Знание машинного обучения. Работа дата-сайентиста — анализ данных огромного размера, и вручную это сделать нереально. Чтобы было проще, они поручают это компьютерам. Поручить такую задачу — значит настроить готовую нейросеть или обучить свою. Поручить программисту обычно это нельзя — слишком много нужно будет объяснить и проконтролировать.

Программирование на Python и R. Мы уже писали, что Python — идеальный язык для машинного обучения и нейросетей. На нём можно быстро написать любую модель для первоначальной оценки гипотезы, поиска общих данных или простой аналитики.

R — язык программирования для статического анализа. Если вам нужно прикинуть, как лайки на странице зависят от количества просмотров или до какого места читатель гарантированно долистывает статью (чтобы поставить туда баннер), — R вам поможет. Но если вы не знаете математику — не поможет.

R и статистика в действии. Картинка с Хабра.

Умение получать и визуализировать данные. Не всем дата-сайентистам везёт настолько, что они сразу получают готовые наборы данных для обработки. Чаще всего они сами должны выяснить, где, откуда, как и сколько брать данных. Здесь обычные программисты им уже могут помочь — спарсить сайт, выкачать большую базу данных или настроить сбор статистики на сервере.

Второй важный навык в этой профессии — умение наглядно показать результаты работы. Какой толк в графиках, если никто, кроме автора, не понимает, что там нарисовано? Задача дата-сайентиста — представить данные наглядным образом, чтобы зрителю было легче сделать нужный вывод.

Связи в твиттере некоего Скотта Белла. Явно видны несколько разных групп фолловеров, которые мало пересекаются между собой. Это и есть наглядное представление данных.

Как это выглядит в жизни

Дата-сайентист в современном понимании — очень молодая профессия. Компании уже поняли, что эти ребята помогут им заработать или сэкономить миллионы долларов, поэтому они создают для них новые отделы и рабочие места.

С другой стороны, такой набор знаний — редкость, поэтому дата-сайентистов сейчас на рынке очень мало: гораздо меньше, чем предложений о работе. Именно поэтому у них такие высокие зарплаты — компании сами борются за то, чтобы нанять такого специалиста.

Так как это направление только развивается, у многих программистов есть шанс попасть туда и работать аналитиком. Для этого нужно прокачивать умение писать код, математику и статистику. Если вы всё это уже знаете и умеете — можете попробовать себя в «профессии будущего».

В «Яндекс-практикуме» есть курс для аналитиков — это начало пути дата-сайентиста. Можно попробовать бесплатный урок и посмотреть, как вам — понравится или нет.

Получите ИТ-профессию
В «Яндекс Практикуме» можно стать разработчиком, тестировщиком, аналитиком и менеджером цифровых продуктов. Первая часть обучения всегда бесплатная, чтобы попробовать и найти то, что вам по душе. Дальше — программы трудоустройства.
Начать карьеру в ИТ
Получите ИТ-профессию Получите ИТ-профессию Получите ИТ-профессию Получите ИТ-профессию
Еще по теме
На стиле — подборка интересных CSS-свойств

Вы не поверите, до чего дошёл прогресс!

medium
Задача про новую должность и выбор зарплаты

Когда вы решили все логические задачи на собеседовании, вам предложат последнюю — самую важную.

hard
Как писать код и сразу видеть результат

Обзор инструментов крутых программистов.

medium
Как подготовить резюме для крупной компании?

Инструкция новичкам от разработчика из Яндекс.Практикума.

easy
Ваш гид по профессиям, связанным с данными
Ваш гид по профессиям, связанным с данными

Всё, что нужно знать, прежде чем вы пойдёте в дата-сайенс, дата-инжиниринг и машинное обучение

easy
Как работает быстрая зарядка в телефоне
Как работает быстрая зарядка в телефоне

Оказывается, там тоже не всё так просто

medium
iTerm2: модный терминал маковода
iTerm2: модный терминал маковода

Как установить и начать пользоваться.

easy
Как защитить ваши важные файлы
Как защитить ваши важные файлы

5 способов, от простых до сложных.

medium
Зачем вам jQuery
Зачем вам jQuery

Каждый год говорят о том, что jQuery уже не тот, но продолжают его использовать. Почему? Вот почему.

medium
easy