2 min read

NVIDIA Cosmos 3 : un seul modèle open source pour le texte, la vidéo, l'audio et les actions de robots

NVIDIA a lancé Cosmos 3, un modèle de monde omnimodal conçu pour l'IA physique, qui gère le texte, les images, la vidéo, l'audio et les actions de robots au sein d'une architecture unique.

Ce qu'il fait

Cosmos 3 raisonne, génère et simule simultanément sur les cinq modalités, selon l'annonce. NVIDIA le présente comme une base unifiée pour le développement de l'IA physique plutôt que comme un ensemble de modèles spécialisés distincts.

Affirmations sur les benchmarks

NVIDIA affirme que Cosmos 3 se classe premier parmi les modèles open source dans trois catégories : la génération d'images, la génération de vidéos et la politique de robot. La source ne précise pas quels benchmarks ont été utilisés ni la marge d'amélioration par rapport aux modèles concurrents.

Limites assumées

Le matériel source est peu détaillé sur les aspects techniques. Le nombre de paramètres, la composition des données d'entraînement, les besoins matériels pour l'inférence et les conditions de licence ne sont pas détaillés dans les informations disponibles. L'affirmation concernant le classement en politique de robot est notable mais non vérifiée par des évaluations indépendantes — la méthodologie de benchmarking propre à NVIDIA n'est pas divulguée ici.

Auparavant, NVIDIA avait publié des compétences et outils open source pour les agents d'IA physique, ainsi qu'un robot de référence humanoïde Isaac GR00T, témoignant d'un effort soutenu pour développer sa pile logicielle destinée aux développeurs d'IA physique.

Si les affirmations relatives aux benchmarks résistent à un examen indépendant, Cosmos 3 offre aux développeurs en robotique un seul modèle open source pour en remplacer plusieurs spécifiques à des tâches — réduisant la charge d'intégration et abaissant potentiellement la barrière au déploiement de politiques de robots performantes.