Как ИИ учится понимать физический мир
Новый прорыв в ИИ: исследователи из Meta разработали систему V-JEPA (Video Joint Embedding Predictive Architecture), которая способна обучаться на видеоматериалах и формировать интуитивное понимание физических законов, подобно тому как это делают младенцы.
Принцип работы системы основан на анализе видеоконтента с помощью метода скрытых представлений. В отличие от традиционных систем, работающих на уровне отдельных пикселей, V-JEPA фокусируется на ключевых аспектах изображения, игнорируя несущественные детали.
Уникальная особенность новой системы заключается в её способности демонстрировать «удивление» при столкновении с физически невозможными сценариями. Например, если объект исчезает и не появляется в ожидаемом месте, модель регистрирует ошибку предсказания, подобно тому как это делают дети в возрасте 6 месяцев.
Архитектура V-JEPA состоит из трёх основных компонентов:
- Кодировщик 1
- Кодировщик 2
- Предсказатель
Система проходит два этапа обучения:
- Предварительная подготовка на больших объёмах видеоданных
- Адаптация к конкретным задачам с использованием размеченных данных
Впечатляющие результаты: на тесте IntPhys система продемонстрировала точность почти 98% при определении физически правдоподобных событий.
Новое поколение — V-JEPA 2 с 1,2 миллиардами параметров, обученное на 22 миллионах видео, показало потенциал применения в робототехнике. Модель способна планировать действия робота на основе видеоданных.
Ограничения системы:
- Может обрабатывать только короткие видеофрагменты
- Не учитывает неопределённость в предсказаниях
- Имеет ограниченную «память»
Перспективы развития технологии открывают новые возможности для создания автономных роботов, способных интуитивно понимать физический мир и эффективно взаимодействовать с окружающей средой. Исследователи отмечают, что хотя система делает значительные шаги в направлении имитации человеческого восприятия, ей ещё предстоит преодолеть ряд фундаментальных ограничений.