Где брать данные для анализа и машинного обучения: бесплатно и удобно
easy

Где брать данные для анализа и машинного обучения: бесплатно и удобно

Подойдут для аналитики и data-science

В своих проектах мы почти всегда пользуемся чужими данными: это удобнее и быстрее, чем собирать всё самому. В этом тексте собраны проверенные и бесплатные источники данных, которые можно использовать в своих проектах. Если у вас есть свои подборки, которые не вошли в статью, — расскажите о них в комментариях.

Kaggle 

kaggle.com/datasets

Kaggle изначально задумывался как сайт для дата-сайентистов, где они могли бы хвастаться собранными данными. Со временем проект вырос в библиотеку открытых данных.

Датасеты можно отфильтровать по темам, качеству обработки, формату файлов и типу лицензии, по которой её добавили на сайт:

Awesome data на GitHub

github.com/awesomedata/awesome-public-datasets

В этом репозитории хранится две сотни датасетов, сгруппированные по темам. Эту подборку составляют и обновляют сами пользователи Гитхаба, добавляя туда и данные из открытых источников. Если с датасетом что-то не так, пользователи сообщают об этом в комментариях, и такой набор данных помечается жёлтым значком. Это значит, что с данными могут быть сложности — например, не хватает части заполненных полей или некоторые данные перемешаны.

Pew Research

pewresearch.org/internet/datasets/

The Pew Research Center — американская компания, которая занимается исследованиями социальных вопросов, общественного мнения и демографических тенденций в США и мире. С 2004 года у центра накопилось много данных, которые он периодически выкладывает на сайт.

Чаще всего центр выкладывает сырые и необработанные данные — самое то для специалиста по data-science. Для скачивания датасетов нужна регистрация — она бесплатная, нужен только адрес электронной почты.

Open Data Network

dev.socrata.com/data/

Это не сайт с каталогами датасетов, а один из самых мощных поисковиков биг-даты. Он ищет сразу по сотням ресурсов с открытыми данными и выводит описание для каждого результата. Так как источников много, то данные могут быть как сырыми, так и очищенными и готовыми для анализа, поэтому смотрите внимательнее на датасеты перед началом работы.

При желании с каждым датасетом можно поработать по API, чтобы не тащить себе все данные. Там же — инструкции о том, как это сделать:

Данные Минздрава и Минкульта

А вот официальная биг-дата от государства. Это данные, которые ведомства выкладывают в открытый доступ. Огромный плюс в том, что эти данные могут показать интересные взаимосвязи между разными элементами, которые происходят в нашей стране. 

Если вы хотели сделать полезный проект с биг-датой, но не знали, с чего начать, начните с анализа этих данных. Например, там можно найти независимую оценку качества оказания услуг медицинскими организациями в стационарных условиях или сведения из единого государственного реестра объектов культурного наследия народов Российской Федерации. 

Биг-дата Минздрава

Биг-дата Минкульта

Данные мониторинга цен на товары

Компания «ПромоДата» мониторит цены на продукты и непродовольственные FMCG-товары по всей России. В бесплатной версии можно получить эксельку с самыми популярными товарами в Москве за последний месяц: сколько они стоят в разных магазинах. 

  1. Заходите на сайт Promodata.ru.
  2. Внизу вводите адрес почты и говорите «Получить пример отчёта».
  3. Если нужны более глубокие данные, выбираете нужные штрихкоды и идёте на https://promodata.ru/pokodu
  4. Загружаете файлик со штрихкодами (экселька, csv). Получаете на почту детальный отчёт по этим штрихкодам.

Художник:

Алексей Сухов

Корректор:

Ирина Михеева

Вёрстка:

Кирилл Климентьев

Соцсети:

Виталий Вебер

Получите ИТ-профессию
В «Яндекс Практикуме» можно стать разработчиком, тестировщиком, аналитиком и менеджером цифровых продуктов. Первая часть обучения всегда бесплатная, чтобы попробовать и найти то, что вам по душе. Дальше — программы трудоустройства.
Вам может быть интересно
easy
[anycomment]
Exit mobile version