В своих проектах мы почти всегда пользуемся чужими данными: это удобнее и быстрее, чем собирать всё самому. В этом тексте собраны проверенные и бесплатные источники данных, которые можно использовать в своих проектах. Если у вас есть свои подборки, которые не вошли в статью, — расскажите о них в комментариях.
Kaggle
Kaggle изначально задумывался как сайт для дата-сайентистов, где они могли бы хвастаться собранными данными. Со временем проект вырос в библиотеку открытых данных.
Датасеты можно отфильтровать по темам, качеству обработки, формату файлов и типу лицензии, по которой её добавили на сайт:
Awesome data на GitHub
github.com/awesomedata/awesome-public-datasets
В этом репозитории хранится две сотни датасетов, сгруппированные по темам. Эту подборку составляют и обновляют сами пользователи Гитхаба, добавляя туда и данные из открытых источников. Если с датасетом что-то не так, пользователи сообщают об этом в комментариях, и такой набор данных помечается жёлтым значком. Это значит, что с данными могут быть сложности — например, не хватает части заполненных полей или некоторые данные перемешаны.
Pew Research
pewresearch.org/internet/datasets/
The Pew Research Center — американская компания, которая занимается исследованиями социальных вопросов, общественного мнения и демографических тенденций в США и мире. С 2004 года у центра накопилось много данных, которые он периодически выкладывает на сайт.
Чаще всего центр выкладывает сырые и необработанные данные — самое то для специалиста по data-science. Для скачивания датасетов нужна регистрация — она бесплатная, нужен только адрес электронной почты.
Open Data Network
Это не сайт с каталогами датасетов, а один из самых мощных поисковиков биг-даты. Он ищет сразу по сотням ресурсов с открытыми данными и выводит описание для каждого результата. Так как источников много, то данные могут быть как сырыми, так и очищенными и готовыми для анализа, поэтому смотрите внимательнее на датасеты перед началом работы.
При желании с каждым датасетом можно поработать по API, чтобы не тащить себе все данные. Там же — инструкции о том, как это сделать:
Данные Минздрава и Минкульта
А вот официальная биг-дата от государства. Это данные, которые ведомства выкладывают в открытый доступ. Огромный плюс в том, что эти данные могут показать интересные взаимосвязи между разными элементами, которые происходят в нашей стране.
Если вы хотели сделать полезный проект с биг-датой, но не знали, с чего начать, начните с анализа этих данных. Например, там можно найти независимую оценку качества оказания услуг медицинскими организациями в стационарных условиях или сведения из единого государственного реестра объектов культурного наследия народов Российской Федерации.
Данные мониторинга цен на товары
Компания «ПромоДата» мониторит цены на продукты и непродовольственные FMCG-товары по всей России. В бесплатной версии можно получить эксельку с самыми популярными товарами в Москве за последний месяц: сколько они стоят в разных магазинах.
- Заходите на сайт Promodata.ru.
- Внизу вводите адрес почты и говорите «Получить пример отчёта».
- Если нужны более глубокие данные, выбираете нужные штрихкоды и идёте на https://promodata.ru/pokodu.
- Загружаете файлик со штрихкодами (экселька, csv). Получаете на почту детальный отчёт по этим штрихкодам.