Mistral AI выкатила семейство моделей Voxtral (Mini на 3 млрд параметров и Small на 24 млрд). Их главная фишка — они не конвертируют речь в текст, чтобы потом его прочитать. Они воспринимают аудио напрямую, понимая интонации, эмоции и контекст.
Что это дает?
- Умные ассистенты: Можно сказать «Посчитай корень из 144», и модель не просто запишет текст, а вызовет калькулятор и даст ответ голосом.
- Анализ встреч: Модель может «слушать» совещание 40 минут и выдавать инсайты, понимая, кто и с какой интонацией говорил.
- Глобальность: Работает на множестве языков «из коробки».
Модель уже доступна на платформе Amazon SageMaker, что позволяет корпорациям разворачивать её на своих защищенных серверах. Это мощный удар по старым системам call-центров, которые работали по цепочке «Слушать -> Распознать текст -> Понять смысл -> Ответить». Voxtral делает всё это за один проход.