Российские и австрийские ученые создали крупнейшую на сегодняшний день базу данных растворимости органических соединений в неводных растворителях — BigSolDB 2.0, содержащую более 100 тысяч экспериментальных значений. Результаты работы опубликованы в журнале Scientific Data.
Исследование выполнено при участии специалистов Института общей и неорганической химии им. Н.С. Курнакова РАН (ИОНХ РАН), Национального исследовательского университета «Высшая школа экономики», МГУ им. М.В. Ломоносова и Венского университета. Полученные данные открывают широкие возможности для применения методов машинного обучения в хемоинформатике — области, где предсказание растворимости остаётся одной из сложнейших задач, особенно вне водной среды.
Мы проанализировали 1595 рецензируемых научных статьи и извлекли из них 103 944 экспериментальных данных о значениях растворимости для 1448 органических соединений в 213 различных растворителях, в температурном диапазоне от 243 до 425 K. Особое внимание было уделено качеству данных - мы проводили тщательную проверку и стандартизацию всех записей, устранение дубликатов и валидацию источников.
Мы также разработали онлайн-приложение для интерактивной визуализации и поиска в наборе данных, который позволяет легко находить значения растворимости как по химической структуре, так и по тривиальному названию соединения.
- Лев Краснов, младший научный сотрудник ИОНХ РАН
Все молекулярные структуры представлены в машиночитаемом формате SMILES, а значения растворимости приведены в логарифмических единицах (LogS), что делает базу оптимальной для использования в алгоритмах машинного обучения. Кроме того, разработано онлайн-приложение для интерактивного поиска и визуализации данных по химической структуре или названию соединения.
BigSolDB 2.0 закрывает существенный пробел в доступных источниках информации: большинство прежних исследований фокусировались на водной растворимости, в то время как новая база охватывает разнообразные растворители, включая низкомолекулярные спирты, ацетон, ацетонитрил, этилацетат и воду.
Разработка таких баз данных способствует созданию эффективных и экономичных инструментов для проектирования новых химических веществ, материалов и лекарств. Поддержка проекта осуществлялась Министерством науки и высшего образования Российской Федерации.
Источник: Минобрнауки РФ
Фото: ИОНХ РАН


