Опубликовано: Wed, 15 Apr 2026 11:42:38 GMT
Канал: Все статьи подряд / Робототехника / Хабр
VLA, или Vision-Language-Action models, сегодня становятся одной из основных парадигм в робототехнике. Идея выглядит естественно: если большие визуально-языковые модели уже умеют связывать изображение, текст и высокоуровневое понимание сцены, то следующий шаг состоит в том, чтобы добавить к этому действия робота. Так появляется единый контур, в котором модель видит сцену, понимает инструкцию на естественном языке и выдаёт осмысленное управление.Но в робототехнике недостаточно просто взять VLM, добавить выход на действия и масштабировать обучение, как это делается в чисто языковых задачах. Роботу приходится работать с дальним горизонтом планирования, с новыми объектами, с активным физическим контактом, с разными скоростями движения и с разными воплощениями: от одноруких манипуляторов до двуруких платформ и антропоморфов. В такой постановке поведение нельзя надёжно прописать в коде, а одной только имитации демонстраций быстро становится недостаточно.В Green-VLA мы исходили именно из этого. Для нас это история не про «ещё один большой датасет», а про сочетание трёх вещей: quality alignment данных, unified action space и RL-фазы поверх behavior cloning (BC), то есть обучения на прямом копировании поведения из демонстраций. В результате мы получили поэтапно обученную VLA-модель для антропоморфного робота Green, которая при этом сохраняет способность к zero-shot переносу на другие воплощения. Читать далее]]>
https://habr.com/ru/companies/sberbank/articles/1020578/