Голос и текст в одном флаконе: Mistral выпустила мультимодальную модель Voxtral

Mistral AI выкатила семейство моделей Voxtral (Mini на 3 млрд параметров и Small на 24 млрд). Их главная фишка — они не конвертируют речь в текст, чтобы потом его прочитать. Они воспринимают аудио напрямую, понимая интонации, эмоции и контекст.

Что это дает?

Умные ассистенты: Можно сказать «Посчитай корень из 144», и модель не просто запишет текст, а вызовет калькулятор и даст ответ голосом.
Анализ встреч: Модель может «слушать» совещание 40 минут и выдавать инсайты, понимая, кто и с какой интонацией говорил.
Глобальность: Работает на множестве языков «из коробки».

Модель уже доступна на платформе Amazon SageMaker, что позволяет корпорациям разворачивать её на своих защищенных серверах. Это мощный удар по старым системам call-центров, которые работали по цепочке «Слушать -> Распознать текст -> Понять смысл -> Ответить». Voxtral делает всё это за один проход.

Оставьте комментарий Отменить ответ