Xiaomi a réalisé une percée dans le domaine de l’intelligence artificielle, et son équipe Big Model est à la pointe de la technologie du raisonnement audio. Dans un exploit remarquable qui met en évidence les prouesses croissantes de l’entreprise en matière de recherche sur l’IA frontalière, le dernier modèle de Xiaomi a surpassé des géants de l’industrie comme OpenAI et Google sur un point de référence clé en matière de compréhension audio.
L’équipe a annoncé via le compte officiel de Xiaomi Technology qu’elle était arrivée en tête de la liste d’évaluation MMAU (Massive Multi-Task Audio Understanding and Reasoning) de renommée mondiale. Leur modèle a atteint une précision record de 64,5 %, dépassant largement le GPT-4o d’OpenAI (57,3 %) et le Gemini 2.0 Flash de Google (55,6 %).
Approche révolutionnaire de l’apprentissage par renforcement
Ce qui est particulièrement remarquable dans cet exploit, c’est le rythme auquel il a été réalisé. Suivant l’exemple de DeepSeek-R1, les chercheurs de Xiaomi ont étiré les algorithmes d’apprentissage par renforcement aux tâches de compréhension audio multimodale et l’ont réalisé en l’espace d’une semaine.
Les scientifiques ont appliqué la méthode GRPO (Group Relative Policy Optimization) qui permet aux modèles d’IA d’apprendre de façon indépendante par le biais d’un mécanisme « d’essai et d’erreur-récompense ». Ce mécanisme permet de créer des capacités de raisonnement similaires à la réflexion humaine et à la vérification en plusieurs étapes.
Le Dr Zhang Wei, chercheur principal du projet, ajoute : « L’apprentissage par renforcement est particulièrement efficace pour gérer un grand écart entre la génération et la vérification des résultats. Le raisonnement audio est précisément une tâche de ce type, où la réflexion active crée des résultats plus efficaces que la mémorisation de modèles. »
Plus qu’une simple reconnaissance de sons
Les applications de l’IA nécessitent aujourd’hui plus qu’une simple reconnaissance de sons. L’avancée de Xiaomi permet à l’IA de :
- Déterminer les défauts potentiels d’un véhicule en analysant les enregistrements du cockpit.
- Déduire l’humeur d’un compositeur en écoutant des performances musicales.
- Anticiper les risques de collision dans les endroits bondés comme les stations de métro.
L’ensemble de tests MMAU utilise 10 000 clips audio allant de la parole au son ambiant en passant par la musique avec des paires de questions-réponses annotées par des humains pour tester le modèle sur 27 compétences.
Perturber les approches traditionnelles de l’IA
Les expériences de Xiaomi ont donné lieu à des résultats surprenants qui remettent en question les idées reçues en matière de développement de l’IA :
- L’apprentissage par renforcement a nettement surpassé l’apprentissage supervisé sur un ensemble de données de seulement 38 000 éléments
- Leur modèle à 7B paramètres a démontré une capacité de raisonnement supérieure malgré le fait qu’il soit beaucoup plus petit que d’autres modèles concurrents à 100B+ paramètres.
- Le fait de forcer le modèle à générer des processus de raisonnement explicites a en fait réduit les performances de 3,4 %.
Bien que la précision de 64,5 % soit élevée, elle reste inférieure à la référence de 82,23 % des experts humains, ce qui indique qu’il y a encore beaucoup de place pour l’amélioration.
Engagement en faveur des logiciels libres
Fidèle à la philosophie de Xiaomi, qui consiste à innover pour tout le monde, l’entreprise a mis en open-source à la fois le code d’entraînement et les paramètres du modèle. Par cet acte altruiste, l’entreprise permet aux développeurs et aux chercheurs du monde entier de développer son innovation.
« En ouvrant nos efforts à la communauté mondiale de l’IA, nous visons à accélérer le processus vers une véritable compréhension audio intelligente », a déclaré Lei Jun, fondateur et PDG de Xiaomi. « Il s’agit d’une étape supplémentaire dans notre mission qui consiste à rendre les technologies innovantes accessibles à tous. »
Pour ceux qui souhaitent expérimenter cette technologie :
- Code d’entraînement : Dépôt GitHub
- Paramètres du modèle : Visage en étreinte
- Rapport technique : arXiv
- Démonstration interactive : Essaie-le toi-même
Cette percée intervient alors que Xiaomi introduit des fonctionnalités d’IA dans toute sa gamme de produits, des smartphones aux produits IoT pour la maison intelligente, et fait de l’entreprise un concurrent sérieux dans l’arène mondiale de la recherche sur l’IA.
Source : IT Home