Обучение с подкреплением. Новые горизонты для генеративных нейросетей

Обучение с подкреплением. Новые горизонты для генеративных нейросетей

Ученые Центра ИИ и Института искусственного интеллекта и цифровых наук факультета компьютерных наук НИУ ВШЭ применили классические алгоритмы обучения с подкреплением для настройки генеративных потоковых сетей (GFlowNets). Это позволило улучшить работу GFlowNets, используемых для решения сложных научных задач, включая моделирование, генерацию гипотез и экспериментальное проектирование. Результаты исследования вошли в 5% лучших публикаций на Международной конференции по искусственному интеллекту и статистике AISTATS, прошедшей 2–4 мая 2024 года в Валенсии.

Генеративные потоковые сети (GFlowNets) — это метод в машинном обучении, который помогает создавать разнообразные и качественные образцы данных, настраивая модель для генерации вариативных объектов с высокими наградами. Внедренные в 2021 году, они применяются в обучении языковых моделей, комбинаторной оптимизации, дизайне печатных плат, моделировании молекул лекарств и других областях.

«Устройство GFlowNets можно описать на примере конструктора лего: по недостроенному объекту и набору доступных деталей модель будет пытаться предсказать, в какое место и с какой вероятностью нужно добавить деталь, чтобы по итогу мы могли с большой вероятностью собрать хороший макет машины или корабля».

Никита Морозов, стажер-исследователь Центра глубинного обучения и байесовских методов Института искусственного интеллекта и цифровых наук ФКН НИУ ВШЭ

Обучение с подкреплением (Reinforcement Learning, RL) — это парадигма машинного обучения, где агент обучается взаимодействовать со средой для максимизации функции награды. Классическим примером является AlphaGo, программа, которая победила профессионального игрока в го.

Генеративные потоковые сети и обучение с подкреплением схожи в использовании функции награды как обучающего сигнала. Однако GFlowNets фокусируются не на максимизации награды, а на обучении генерации объектов с вероятностями, пропорциональными награде.

«Мы показали, что классические алгоритмы обучения с подкреплением применительно к GFlowNets работают сравнимо и даже эффективнее современных методов, разработанных специально для этих моделей. В задаче моделирования молекул лекарств наш метод сгенерировал на 30% больше высококачественных молекул, чем существующие подходы».

Алексей Наумов, научный руководитель Центра ИИ, директор по фундаментальным исследованиям Института искусственного интеллекта и цифровых наук ФКН НИУ ВШЭ

Исследователи подчеркнули, что использование существующих методов обучения с подкреплением для обучения GFlowNet без дополнительной адаптации ускорит развитие новых методов в медицинской химии, материаловедении, энергетике, биотехнологиях и других областях, где GFlowNet активно применяются.

Исследование поддержано грантом для исследовательских центров в области искусственного интеллекта, предоставленным Аналитическим центром при Правительстве РФ.

Донорство крови в России. Как россияне помогают друг другу
Прорыв в агротехнологиях. Урожайность подсолнечника увеличивается на 43%