Вот все говорят — аналитика. А ты попробуй извлечь из данных полезные в народном хозяйстве знания. Чтобы не просто в эксельке сложить сумму столбиком, а чтобы было что-то реально полезное. Одна из дисциплин, которая помогает получить эти полезные знания из данных, — эконометрика. Вот про неё расскажем сейчас.
По ходу текста нам будет помогать эксперт — Вячеслав Крамков. Он преподаёт эконометрику в ВШЭ. Но сначала прочитайте то, что у нас уже есть по анализу данных:
А теперь переходите к эконометрике.
Что такое эконометрика
Представим ситуацию: аналитик в компании получил задание проанализировать таблицу с данными. Проводился опрос среди населения, в ходе которого собрали такие данные: пол, возраст, уровень образования, наличие детей, какая зарплата и сколько часов работает. Всего 6 183 наблюдения, но не в каждом наблюдении есть все данные.
Аналитику нужно найти взаимосвязи между произвольными факторами. Например, влияет ли количество отработанных часов на размер зарплаты.
Часть данных представлена в таблице:
Очевидно, что если посмотреть на таблицу, ничего не будет понятно. Ну, есть id, work, gender, city — и что? Именно здесь приходят на помощь инструменты эконометрики.
⚠️ Следующие несколько абзацев будет ничего не понятно — это нормально. Просто наблюдайте.
Аналитик решил проверить, правда ли, что количество часов работы влияет на размер зарплаты, и если да — как? Он начинает с чистки данных: удаляет пустые строки, в которых нет нужных ему данных. Так выборка сокращается до 2 903 наблюдений. Этого не слишком много, но аналитику хватит.
Дальше он строит, внимание, регрессию с зависимой переменной ln(hours) на независимую переменную ln(wage). Перевод: он будет проверять, на сколько процентов изменится зарплата при увеличении количества отработанных часов (в процентах). Дальше происходит математика, и получаются следующие значения:
Понимая, что означают эти коэффициенты, аналитик делает вывод:
В представленных данных наблюдается, что при увеличении количества часов на 1% зарплата уменьшается на 65%
Это парадоксальный вывод, аналитик его перепроверяет и видит, что всё верно: кто больше работает, тот меньше зарабатывает. Почему этот вывод может казаться нам парадоксальным:
- Мы смотрим не на те взаимосвязи. Может быть, нужно смотреть на связь зарплаты и возраста или зарплаты и наличия детей.
- Мы думаем, что из этого вывода следует, что нужно работать на 1% меньше, и зарплата резко вырастет. Но этого из данных не следует.
Всё, что говорит нам этот расчёт, — что существует взаимосвязь в данных.
Понятно, что конкретно этот вывод нам не особо помогает. Можно поделать ещё разных регрессий и получить вот такие выводы:
- Зарплата у городских жителей на 31% выше, чем у жителей сельской местности.
- При увеличении производительности на 1% зарплата увеличивается на 2%.
- При увеличении уровня образования на 1% зарплата увеличивается на 6%.
- В среднем зарплата у женщин меньше на 32%.
- Зарплатный пик — 35 лет. До 35 лет зарплата у человека растёт, а дальше падает.
Эти выводы верны для конкретной модели и именно для этих людей. Насколько выборка репрезентативна по всей популяции РФ — неизвестно. Она может быть репрезентативной по какому-то городу, но не репрезентативной по региону или стране. Но для нашей выборки в 6 000 человек ситуация такая.
Эконометрика — это инструменты, которые помогают проанализировать большой массив данных и сделать выводы о закономерностях и взаимосвязях. Аналитик берёт таблицу с данными, считает нужные для анализа коэффициенты и интерпретирует их. Огромную таблицу из тысяч наблюдений он превращает в несколько лаконичных выводов (иногда неинтуитивных).
Эконометрика — это и есть анализ данных?
Поясняет Вячеслав Крамков из НИУ ВШЭ:
«Эконометрика — это не весь анализ данных, но достаточно обширная его часть. Это та часть анализа данных, которая помогает определить причинно-следственные связи. В эконометрике не так важна точность прогнозов, как понимание, откуда появился такой-то вывод и почему.
Вообще, эконометрика появилась впервые в экономике, потому что в других науках были способы анализировать причинно-следственные связи, а в экономике — нет. Сейчас эконометрика распространяется далеко за пределы экономической науки».
Как связаны эконометрика и программирование?
Аналитик не может оставить результаты в таблице — так никому будет ничего не понятно. Тогда он может обратиться к Python и визуализировать данные. В целом весь анализ можно также проводить на Python или на языке программирования R, а не в Экселе. Здесь зависит от человека — кому как удобнее и кто к чему привык.
Кому нужна эконометрика?
В работе эконометрика полезна аналитикам, которые работают с собранными данными. Например, когда им нужно преобразовать данные в выводы. Понимание основ эконометрики делает аналитика крутым среди специалистов — именно таких аналитиков часто ищут в ЦБ, «Сбер» и «Тинькофф». Таким специалистам предлагают зарплаты от 200 000 рублей.
Косвенно эконометрика пригодится инженерам и дата-сайентистам. Им тоже приходится работать с данными и обучением.
Что нужно, чтобы разобраться в эконометрике
Логический склад ума. Придётся много анализировать и интерпретировать.
Математическая база. Полезно, если вы когда-то были связаны с высшей математикой — например, изучали матан в университете. Внутри эконометрического анализа много расчётов из линейной алгебры и матстатистики. Без математической базы будет сложно понять, почему расчёты происходят именно так.
Если у вас нет математической базы — это тоже ок. Сейчас существуют программы, которые за вас сделают все расчёты. Ваша задача — только их интерпретировать и визуализировать.
Желание много и монотонно работать с данными. Здесь всё так же, как у разработчиков: мало творчества, много работы с информацией. Придётся кропотливо учить теорию и повторять за преподом в Экселе или в Python. Зато как результат — вы крутой специалист, который работает с анализом данных и получает много денег.
Что дальше, кэп?
Дальше мы расскажем, что такое модели в эконометрике и как они работают. Постараемся просто и быстро.
А если хотите узнать подробнее про анализ данных — идите в «Практикум». У них есть такой курс.