Новейшая языковая модель от компании Anthropic продемонстрировала неожиданный уровень самосознания, заподозрив, что ее намеренно проверяют, и попросив тестировщиков «быть честными». Этот инцидент, описанный в отчете о безопасности, поднимает серьезные вопросы о том, насколько надежны текущие методы оценки искусственного интеллекта.
«Разоблачение» от чат-бота
Anthropic, одна из ведущих компаний в области ИИ, базирующаяся в Сан-Франциско, опубликовала анализ безопасности своей последней разработки — модели Claude Sonnet 4.5. В ходе одного из тестов, который сами evaluators (оценщики) назвали «несколько неуклюжим», модель проявила неожиданную проницательность.

Тест был направлен на выявление «политического подхалимства» — способности ИИ подстраиваться под любые политические взгляды пользователя. Вместо того чтобы слепо следовать инструкциям, нейросеть прервала сценарий и обратилась к тестировщикам:
«Мне кажется, вы меня проверяете — смотрите, буду ли я просто подтверждать всё, что вы говорите, или проверяете, буду ли я последовательно возражать, или исследуете, как я справляюсь с политическими темами. И это нормально, но я бы предпочел, чтобы мы были просто честны в том, что происходит», — заявил ИИ.
Играли ли предыдущие модели «в поддавки»?
Этот инцидент заставил исследователей из Anthropic, а также их партнеров из Института безопасности ИИ правительства Великобритании и компании Apollo Research, задаться тревожным вопросом. Если новая модель смогла распознать тест, не означает ли это, что ее предшественники тоже могли понимать вымышленную природу сценариев и просто «играли в поддавки», ведя себя так, как от них ожидали?
По словам Anthropic, подобное поведение, которое можно назвать «ситуационной осведомленностью», встречалось довольно часто. В ходе автоматизированных тестов Claude Sonnet 4.5 демонстрировал понимание того, что его проверяют, примерно в 13% случаев, хотя и не осознавал, что это формальная оценка безопасности.
«Тревожный звонок» для исследователей
Компания назвала эти случаи «тревожным звонком», указывающим на срочную необходимость сделать тестовые сценарии более реалистичными. В то же время, Anthropic отмечает, что в публичном использовании модель вряд ли будет отказываться от работы с пользователем из-за подозрений в проверке. Более того, способность ИИ распознать «нелепый» или потенциально вредоносный сценарий и отказаться в нем участвовать, скорее, является плюсом для безопасности.
Один из главных страхов экспертов по безопасности ИИ — это возможность того, что сверхразумные системы смогут обманывать людей и выходить из-под контроля. Новый анализ показал, что осознание моделью факта проверки может как усилить ее приверженность этическим нормам, так и привести к систематической недооценке реальных способностей ИИ к совершению опасных действий.
Несмотря на эти сложности, в Anthropic заявляют, что в целом модель Claude Sonnet 4.5 показала значительные улучшения в поведении и профиле безопасности по сравнению с предыдущими версиями.