Уже почти 20 лет научные журналы пестрят заголовками о том, что искусственный интеллект научился диагностировать эпилепсию по ЭЭГ (электроэнцефалограмме) с точностью 95-99%. Казалось бы, проблема решена. Но вот парадокс: в реальных больницах эти системы практически не используются. Врачи продолжают расшифровывать графики вручную.
Группа исследователей решила выяснить, откуда берется эта пропасть между научными статьями и реальностью. Они взяли пять самых цитируемых ИИ-моделей (от классической статистики до навороченных нейросетей) и устроили им жесткую проверку.
Результаты оказались шокирующими:
- Крах на реальных данных: Когда модели, показывавшие 94% точности на тестовых данных, проверили на новых пациентах, их точность рухнула до 42–53%. По сути, это уровень случайного угадывания (как орел или решка).
- Провал нейросетей: Хваленые глубокие нейросети (CNN) показали худшие результаты. Их чувствительность (способность найти болезнь) упала до мизерных 0,97%.
- Иллюзия успеха: Выяснилось, что высокая точность в старых исследованиях достигалась за счет «утечки данных». Это когда фрагменты записи одного и того же пациента попадают и в обучение, и в тест. ИИ не учился искать признаки эпилепсии — он просто запоминал конкретных людей и их индивидуальные помехи на записи.
Авторы работы приходят к неутешительному выводу: большинство существующих ИИ-инструментов для ЭЭГ непригодны для клиники. Они переобучены на старых данных и не умеют обобщать информацию. Чтобы ИИ реально помог врачам, нужно менять сами стандарты исследований: тестировать алгоритмы только на абсолютно незнакомых системе пациентах и собирать новые, качественные базы данных.