Самая полная база данных растворимости в органических растворителях. Новый инструмент для химии

Самая полная база данных растворимости в органических растворителях. Новый инструмент для химии

Российские и австрийские ученые создали крупнейшую на сегодняшний день базу данных растворимости органических соединений в неводных растворителях — BigSolDB 2.0, содержащую более 100 тысяч экспериментальных значений. Результаты работы опубликованы в журнале Scientific Data.

Исследование выполнено при участии специалистов Института общей и неорганической химии им. Н.С. Курнакова РАН (ИОНХ РАН), Национального исследовательского университета «Высшая школа экономики», МГУ им. М.В. Ломоносова и Венского университета. Полученные данные открывают широкие возможности для применения методов машинного обучения в хемоинформатике — области, где предсказание растворимости остаётся одной из сложнейших задач, особенно вне водной среды.

Мы проанализировали 1595 рецензируемых научных статьи и извлекли из них 103 944 экспериментальных данных о значениях растворимости для 1448 органических соединений в 213 различных растворителях, в температурном диапазоне от 243 до 425 K. Особое внимание было уделено качеству данных - мы проводили тщательную проверку и стандартизацию всех записей, устранение дубликатов и валидацию источников.

Мы также разработали онлайн-приложение для интерактивной визуализации и поиска в наборе данных, который позволяет легко находить значения растворимости как по химической структуре, так и по тривиальному названию соединения.

  • Лев Краснов, младший научный сотрудник ИОНХ РАН

Все молекулярные структуры представлены в машиночитаемом формате SMILES, а значения растворимости приведены в логарифмических единицах (LogS), что делает базу оптимальной для использования в алгоритмах машинного обучения. Кроме того, разработано онлайн-приложение для интерактивного поиска и визуализации данных по химической структуре или названию соединения.

BigSolDB 2.0 закрывает существенный пробел в доступных источниках информации: большинство прежних исследований фокусировались на водной растворимости, в то время как новая база охватывает разнообразные растворители, включая низкомолекулярные спирты, ацетон, ацетонитрил, этилацетат и воду.

Разработка таких баз данных способствует созданию эффективных и экономичных инструментов для проектирования новых химических веществ, материалов и лекарств. Поддержка проекта осуществлялась Министерством науки и высшего образования Российской Федерации.

Источник: Минобрнауки РФ
Фото: ИОНХ РАН

Атомное солнце над Хиросимой и Нагасаки: как наука создала оружие конца света
Электромагнитный импульс вместо мешалки: ученые Самарского политеха улучшают качество металлических расплавов