Как получить полезные знания из больших данных

Введение в эконометрику + бесплатный курс про данные

Вот все говорят — аналитика. А ты попробуй извлечь из данных полезные в народном хозяйстве знания. Чтобы не просто в эксельке сложить сумму столбиком, а чтобы было что-то реально полезное. Одна из дисциплин, которая помогает получить эти полезные знания из данных, — эконометрика. Вот про неё расскажем сейчас.

По ходу текста нам будет помогать эксперт — Вячеслав Крамков. Он преподаёт эконометрику в ВШЭ. Но сначала прочитайте то, что у нас уже есть по анализу данных:

А теперь переходите к эконометрике.

Что такое эконометрика

Представим ситуацию: аналитик в компании получил задание проанализировать таблицу с данными. Проводился опрос среди населения, в ходе которого собрали такие данные: пол, возраст, уровень образования, наличие детей, какая зарплата и сколько часов работает. Всего 6 183 наблюдения, но не в каждом наблюдении есть все данные. 

Аналитику нужно найти взаимосвязи между произвольными факторами. Например, влияет ли количество отработанных часов на размер зарплаты. 

Часть данных представлена в таблице:

Как получить полезные знания из больших данных

Очевидно, что если посмотреть на таблицу, ничего не будет понятно. Ну, есть id, work, gender, city — и что? Именно здесь приходят на помощь инструменты эконометрики. 

⚠️ Следующие несколько абзацев будет ничего не понятно — это нормально. Просто наблюдайте.

Аналитик решил проверить, правда ли, что количество часов работы влияет на размер зарплаты, и если да — как? Он начинает с чистки данных: удаляет пустые строки, в которых нет нужных ему данных. Так выборка сокращается до 2 903 наблюдений. Этого не слишком много, но аналитику хватит. 

Как получить полезные знания из больших данных
Фрагмент таблицы, почищенной от ненужных строк

Дальше он строит, внимание, регрессию с зависимой переменной ln(hours) на независимую переменную ln(wage). Перевод: он будет проверять, на сколько процентов изменится зарплата при увеличении количества отработанных часов (в процентах). Дальше происходит математика, и получаются следующие значения:

Как получить полезные знания из больших данных

Понимая, что означают эти коэффициенты, аналитик делает вывод: 

В представленных данных наблюдается, что при увеличении количества часов на 1% зарплата уменьшается на 65%

Это парадоксальный вывод, аналитик его перепроверяет и видит, что всё верно: кто больше работает, тот меньше зарабатывает. Почему этот вывод может казаться нам парадоксальным: 

  • Мы смотрим не на те взаимосвязи. Может быть, нужно смотреть на связь зарплаты и возраста или зарплаты и наличия детей. 
  • Мы думаем, что из этого вывода следует, что нужно работать на 1% меньше, и зарплата резко вырастет. Но этого из данных не следует.

Всё, что говорит нам этот расчёт, — что существует взаимосвязь в данных. 

Понятно, что конкретно этот вывод нам не особо помогает. Можно поделать ещё разных регрессий и получить вот такие выводы: 

  • Зарплата у городских жителей на 31% выше, чем у жителей сельской местности.
  • При увеличении производительности на 1% зарплата увеличивается на 2%.
  • При увеличении уровня образования на 1% зарплата увеличивается на 6%.
  • В среднем зарплата у женщин меньше на 32%.
  • Зарплатный пик — 35 лет. До 35 лет зарплата у человека растёт, а дальше падает.

Эти выводы верны для конкретной модели и именно для этих людей. Насколько выборка репрезентативна по всей популяции РФ — неизвестно. Она может быть репрезентативной по какому-то городу, но не репрезентативной по региону или стране. Но для нашей выборки в 6 000 человек ситуация такая.

Эконометрика — это инструменты, которые помогают проанализировать большой массив данных и сделать выводы о закономерностях и взаимосвязях. Аналитик берёт таблицу с данными, считает нужные для анализа коэффициенты и интерпретирует их. Огромную таблицу из тысяч наблюдений он превращает в несколько лаконичных выводов (иногда неинтуитивных).

Эконометрика — это и есть анализ данных?

Поясняет Вячеслав Крамков из НИУ ВШЭ:

«Эконометрика — это не весь анализ данных, но достаточно обширная его часть. Это та часть анализа данных, которая помогает определить причинно-следственные связи. В эконометрике не так важна точность прогнозов, как понимание, откуда появился такой-то вывод и почему. 

Вообще, эконометрика появилась впервые в экономике, потому что в других науках были способы анализировать причинно-следственные связи, а в экономике — нет. Сейчас эконометрика распространяется далеко за пределы экономической науки».

Как связаны эконометрика и программирование?

Аналитик не может оставить результаты в таблице — так никому будет ничего не понятно. Тогда он может обратиться к Python и визуализировать данные. В целом весь анализ можно также проводить на Python или на языке программирования R, а не в Экселе. Здесь зависит от человека — кому как удобнее и кто к чему привык.

Как получить полезные знания из больших данных
Это визуализация данных, из которых неподготовленный читатель может сделать вывод, что рост числа часов связан со снижением зарплаты

Кому нужна эконометрика?

В работе эконометрика полезна аналитикам, которые работают с собранными данными. Например, когда им нужно преобразовать данные в выводы. Понимание основ эконометрики делает аналитика крутым среди специалистов — именно таких аналитиков часто ищут в ЦБ, «Сбер» и «Тинькофф». Таким специалистам предлагают зарплаты от 200 000 рублей.

Косвенно эконометрика пригодится инженерам и дата-сайентистам. Им тоже приходится работать с данными и обучением.

Что нужно, чтобы разобраться в эконометрике

Логический склад ума. Придётся много анализировать и интерпретировать. 

Математическая база. Полезно, если вы когда-то были связаны с высшей математикой — например, изучали матан в университете. Внутри эконометрического анализа много расчётов из линейной алгебры и матстатистики. Без математической базы будет сложно понять, почему расчёты происходят именно так.

Если у вас нет математической базы — это тоже ок. Сейчас существуют программы, которые за вас сделают все расчёты. Ваша задача — только их интерпретировать и визуализировать.

Желание много и монотонно работать с данными. Здесь всё так же, как у разработчиков: мало творчества, много работы с информацией. Придётся кропотливо учить теорию и повторять за преподом в Экселе или в Python. Зато как результат — вы крутой специалист, который работает с анализом данных и получает много денег.

Что дальше, кэп?

Дальше мы расскажем, что такое модели в эконометрике и как они работают. Постараемся просто и быстро. 

А если хотите узнать подробнее про анализ данных — идите в «Практикум». У них есть такой курс.

Текст:

Катерина Маковеева

Редактор:

Максим Ильяхов

Художник:

Алексей Сухов

Корректор:

Ирина Михеева

Вёрстка:

Кирилл Климентьев

Соцсети:

Аня Соколова

Бесплатный курс для тех, кому интересно с данными
Язык программирования Python решает многие проблемы с математикой и анализом, если уметь им пользоваться. В Практикуме есть бесплатный курс, который помогает в этом разобраться.
Учиться бесплатно
Бесплатный курс для тех, кому интересно с данными Бесплатный курс для тех, кому интересно с данными Бесплатный курс для тех, кому интересно с данными Бесплатный курс для тех, кому интересно с данными
Получите ИТ-профессию
В «Яндекс Практикуме» можно стать разработчиком, тестировщиком, аналитиком и менеджером цифровых продуктов. Первая часть обучения всегда бесплатная, чтобы попробовать и найти то, что вам по душе. Дальше — программы трудоустройства.
Начать карьеру в ИТ
Получите ИТ-профессию Получите ИТ-профессию Получите ИТ-профессию Получите ИТ-профессию
Еще по теме