«Визуальная музыка для лифтов»: Исследование показало, что ИИ сводит все картинки к 12 скучным шаблонам

ИИ-генераторы изображений имеют доступ к миллионам визуальных данных, но, как выяснили ученые, их «фантазия» пугающе ограничена. Исследование, опубликованное в журнале Patterns, показало, что модели (такие как Stable Diffusion и LLaVA) страдают от отсутствия истинной креативности и тяготеют к усредненности.

Ученые провели тест в формате «визуального телефона». Одной нейросети давали сложный запрос, она генерировала картинку. Вторую нейросеть просили описать эту картинку, и описание снова скармливали первой модели. Этот цикл повторяли 100 раз.

Результат:

Вместо того чтобы развивать идею или уходить в абстракцию (как это бывает у людей), ИИ всегда скатывался к одним и тем же 12 визуальным мотивам. Исследователи назвали это «визуальной музыкой для лифтов» — скучные, глянцевые изображения, напоминающие дешевые картины в отелях.

Самые частые финальные точки:

Морской маяк.
Формальный интерьер гостиной.
Ночной город.
Деревенская архитектура.

Даже если изначальный запрос был о «книге на забытом языке в лесу», через сотню итераций ИИ превращал его в стандартный пейзаж. Вывод неутешителен: нейросети отлично копируют стили, но у них напрочь отсутствует вкус и способность удерживать сложные, нестандартные концепции. Они просто выбирают самый статистически вероятный (читай — банальный) путь.

Оставьте комментарий Отменить ответ