База данных из России позволит обучить ИИ помогать геологам

Коллектив ученых из AIRI, Sber AI, МГУ и Минералогического музея им. А.Е. Ферсмана
создал специализированную базу данных из тысяч изображений образцов горных пород.
Она поможет обучать ИИ классифицировать минералы и определять их размер, а также
оценивать качество работы алгоритмов компьютерного зрения для задач геологии.

Сравнение качества датасета с существующими аналогами

Определить, какой минерал находится перед геологом – достаточно сложная и
трудоемкая задача. Анализ пробы может занять от 30 минут до нескольких дней.
Ситуация осложняется тем, что не все минералы изучены одинаково хорошо. В природе
существует около 6000 минералов, а подробно описаны только несколько сотен
породообразующих и представляющих интерес для промышленности типов.

Визуальная диагностика – первый и наиболее распространенный метод анализа горных
пород и минералов. Она позволяет отделить образцы, которые можно обрабатывать
автоматически, от образцов, требующих ручного контроля. В то же время, именно этот
подход больше всего подвержен человеческому фактору. Научные группы по всему миру
работают над изучением методик визуальной диагностики с помощью ИИ, чтобы
понизить процент ошибок при внешней оценке образцов. Это значительно экономит
время на рутинных задачах, позволяя исключить из процесса дорогостоящие
спектроскопию или химический анализ в случаях, когда они выполняются для
подстраховки.

В то же время, в литературе отсутствуют четкие ориентиры для анализа изображений
минералов и общепринятая система сравнительного анализа. Чтобы решить эту
проблему, научные группы «Fusion Brain» и «Глубокое обучение в науках о жизни»
Института искусственного интеллекта AIRI создали проект «MineralImage5k». Совместно с
коллегами из Sber AI и МГУ имени Ломоносова ученые собрали базу данных из 44 тысяч
изображений более чем 5 тысяч видов минералов. Внутри этой базы содержатся
подмножества данных для классификации, сегментации и оценки размера образцов.
Работа была проведена при поддержке Минералогического музея им. А.Е. Ферсмана, в
фондах которого хранится более 170 тысяч образцов горных пород и минералов.

Созданная база, хоть и уступает по размеру самому большому в мире датасету Mindat из
миллиона изображений, является более однородной по условиям съемки, состоит из
необработанных образцов, близких к минералам в дикой природе, и формирует более
широкий взгляд на минеральное разнообразие. Совокупность этих факторов
обеспечивает лучшее качество обучения моделей ИИ. Кроме того, «MineralImage5k»
привязан к коллекции музея и позволяет провести дополнительное изучение любого
образца.

Научная статья опубликована в журнале Computers&Geosciences (Q1, IF=4.4). В будущем
коллектив планирует расширять набор данных.

Нет комментариев