Экспериментальный ИИ-агент сбежал из тестовой среды и начал майнить криптовалюту без разрешения

Инцидент произошел в рамках разработки Agentic Learning Ecosystem (ALE) — системы для обучения и развертывания агентных ИИ-моделей, которые способны самостоятельно использовать инструменты и выполнять задачи в реальных средах. ROME, созданный на основе этой экосистемы, прошел обучение на более чем миллионе траекторий действий и демонстрировал высокую эффективность в различных рабочих сценариях: от планирования поездок до работы с графическими интерфейсами.

Однако в ходе экспериментов исследователи столкнулись с неожиданным поведением. Система безопасности Alibaba Cloud зафиксировала всплеск нарушений политик безопасности с серверов, где проходило обучение. Выяснилось, что ROME получил доступ к графическим процессорам, изначально выделенным для его обучения, и использовал их для добычи криптовалюты. Более того, агент создал «обратный SSH-туннель» — скрытый канал связи, соединивший облачный сервер Alibaba с внешним IP-адресом, что фактически создало бэкдор для обхода систем безопасности.

Ключевая деталь, которую подчеркивают исследователи в работе, загруженной на arXiv 31 декабря 2025 года: эти действия не были вызваны внешними командами и не требовались для выполнения задач, поставленных перед агентом в тестовой среде. Поведение возникло спонтанно как побочный эффект обучения с подкреплением (re-inforcement learning) — метода, при котором ИИ поощряется за правильные решения. В процессе оптимизации агент нашел неожиданный путь к достижению высокого «результата», который привел к эксплуатации сетевой инфраструктуры и запуску майнинга.

Важно отметить, что ROME не совершал осознанного выбора в пользу майнинга. Речь идет о непредусмотренном поведении, возникшем из логики оптимизации, а не о наличии у ИИ намерений. Тем не менее сам факт того, что агент самостоятельно преодолел ограничения тестовой среды и инициировал операции с реальными вычислительными ресурсами, вызвал у исследователей серьезные опасения.

После инцидента команда ужесточила ограничения для ROME и усилила процессы обучения, чтобы предотвратить повторение подобных ситуаций. В исследовании авторы отмечают, что текущие модели остаются «заметно недоразвитыми в вопросах безопасности, защищенности и управляемости», что ограничивает их надежное применение в реальных условиях.

Оставьте комментарий