😢 Проблема: для названий органических соединений используют международный язык — номенклатуру ИЮПАК. Название должно полностью отражать химическую структуру, поэтому может быть очень громоздким.
Ошибка даже в одном символе будет критичной, поэтому от химиков требуется внимательность и знание многочисленных правил языка. На рынке есть коммерческие продукты для автоматической генерации названий, но нет программ под свободной лицензией.
😎 Решение: нейросеть для генерации названий органических соединений. За основу взяли Transformer, нейросеть Google для машинного перевода с одного языка на другой. Для обучения и тестирования использовали самую большую открытую базу PubChem, которая содержит около 100 миллионов соединений.
Созданная примерно за полтора месяца нейросеть способна переводить названия почти с той же точностью, что и алгоритмические решения на базе химических правил.
👨💻 Кто: исследователи Сколковского института науки и технологий, МГУ им. М. В. Ломоносова и стартапа Syntelly, Россия.
Источники: skoltech.ru и nature.com