Голос и текст в одном флаконе: Mistral выпустила мультимодальную модель Voxtral
Mistral AI выкатила семейство моделей Voxtral (Mini на 3 млрд параметров и Small на 24 млрд). Их главная фишка — они не конвертируют речь в текст, чтобы потом его прочитать. Они воспринимают аудио напрямую, понимая интонации, эмоции и контекст. Что это дает? Умные ассистенты: Можно сказать «Посчитай корень из 144», и модель не просто запишет … Читать далее