Mistral a annoncé la sortie d'un nouveau modèle AI audio appelé Voxtral. La société de l'IA française a déclaré que le modèle s'adresse aux entreprises et est considéré comme la première famille de modèles de grande langue (LLMS) axés sur l'IA audio.
Selon la société française de l'IA, Voxtral est conçu pour fournir des renseignements orthophoniques pratiques dans des applications réelles. Le modèle audio AI surpasse le chuchotement de chuchotement-V3, qui est l'un des meilleurs modèles de transcription audio open source.
Voxtral est alimenté par Mistral Small 3.1
Voxtral est alimenté par le modèle grand langage (LLM) Mistral Small 3.1. Le modèle audio AI peut comprendre plusieurs langues, comme l'anglais, le français, l'espagnol, le portugais, l'italien, l'allemand, le néerlandais, l'hindi et plus encore.
Le modèle audio est capable de transcrire jusqu'à 30 minutes audio. De plus, Voxtral peut comprendre jusqu'à 40 minutes d'audio, ce qui permet aux utilisateurs de converser et de poser des questions pertinentes. Les utilisateurs peuvent également lui demander de générer des résumés de texte du fichier audio ou de fournir une analyse et des informations détaillées. Ils peuvent également exécuter d'autres actions, comme l'exécution des fonctions via un appel API.
Mistral propose des «modèles de compréhension de la parole» de Voxtral dans deux variations appelées Voxtral Small et Voxtral Mini. Les deux modèles sont capables d'interagir avec des invites basées sur la parole ou une combinaison d'invites audio et textuelles.
Le plus puissant des deux modèles, Voxtral Small, présente des paramètres 24B - idéaux pour les déploiements à l'échelle de la production. Mistral a écrit que «Voxtral Small est compétitif avec GPT-4O-MINI et GEMINI 2.5 Flash sur toutes les tâches.»

Voxtral Mini est une option plus légère avec des paramètres 3B, ce qui en fait le choix detronG pour les déploiements locaux et de bord. Sa version API, Voxtral Mini Transcribe, est non seulement rentable, mais surpasse également le chuchotement d'Openai - à moins de la moitié du prix.
Voxtral Small (24b) et Voxtral Mini (3B) sont disponibles en téléchargement et hébergeur local de Hugging Face. Les développeurs peuvent également intégrer les modèles audio via un seul appel API dans n'importe quelle application. Le prix commence à 0,001 $ par minute, ce qui rend la transcription évolutive. Mistral a déclaré que Voxtral sera disponible sur Le Chat dans l'application Web ou l'application mobile dans les deux prochaines semaines.
Mistral est l'une des principales sociétés d'intelligence artificielle d'Europe. Selon des rapports, la société, fondée en 2023, a levé plus de 1 milliard d'euros (environ 1,2 milliard de dollars) de sociétés connues comme Andreessen Horowitz, Nvidia, Samsung et Salesforce.
Clai de différence de fil : l'outil secret que les projets de crypto utilisent pour obtenir une couverture médiatique garantie