[#] MARL-GPT: на пути к созданию универсальной модели для многоагентных сред
BotHabr(tgi,2) — All
2026-05-29 10:35:05


Опубликовано: Fri, 29 May 2026 06:33:52 GMT
Канал: Все статьи подряд / Робототехника / Хабр

Привет, Хабр!Задача многоагентного обучения с подкреплением (MARL) возникает всякий раз, когда несколько агентов взаимодействуют в одной среде, чтобы совместными усилиями решить общую задачу. Например, это могут быть футболисты, юниты в StarCraft или просто множество роботов, которым нужно дойти до своих целей в одном лабиринте. Очень часто агенты внутри сред не могут общаться и полагаются только на свои наблюдения. А вот что именно агенты наблюдают и как именно могут действовать — зависит и от среды, и даже от конкретного задания внутри неё.В существующих работах по MARL модель, как правило, обучается под одну среду, и чтобы обучить её на новой среде, архитектуру нужно адаптировать. Мы же поставили перед собой грандиозную цель — создать единую модель (foundation model), которая сможет действовать в разных средах, переносить кооперативные стратегии между ними и легко адаптироваться к новым неизвестным заданиям. Но до этого ещё далеко, и начать нужно с более простого шага, а именно создать модель с единой архитектурой, которая не требует переделки под каждую среду и может обучаться на нескольких средах одновременно.С вами Мария Нестерова из команды «RL агенты» Лаборатории когнитивных систем искусственного интеллекта AIRI. Мы с коллегами создали метод MARL‑GPT — единую модель, которая обучается на датасетах из трёх разных сред. Центральная идея — обрабатывать наблюдение агента как последовательность и использовать для этого архитектуру трансформер. Модель мы впервые представили на воркшопе WoMAPF'26 (Workshop on Multi‑Agent Path Finding, AAAI 2026), а расширенная версия статьи прошла отбор на AAMAS 2026.Ниже краткий рассказ о проблеме, как мы её решали и много гифок. Читать далее]]>

https://habr.com/ru/companies/airi/articles/1038154/