2 min read

NVIDIA Cosmos 3: un único modelo de código abierto para texto, vídeo, audio y acciones de robots

NVIDIA ha lanzado Cosmos 3, un modelo de mundo omnimodal diseñado para la IA física que gestiona texto, imágenes, vídeo, audio y acciones de robots dentro de una única arquitectura.

Qué hace

Según el comunicado, Cosmos 3 razona, genera y simula a través de las cinco modalidades simultáneamente. NVIDIA lo presenta como una base unificada para el desarrollo de IA física en lugar de un conjunto de modelos especializados independientes.

Afirmaciones sobre benchmarks

NVIDIA afirma que Cosmos 3 ocupa el primer puesto entre los modelos de código abierto en tres categorías: generación de imágenes, generación de vídeo y políticas de robots. La fuente no especifica qué benchmarks se utilizaron ni el margen de mejora respecto a los modelos competidores.

Limitaciones honestas

El material de origen es escaso en cuanto a detalles técnicos. El número de parámetros, la composición de los datos de entrenamiento, los requisitos de hardware para la inferencia y las condiciones de licencia no se detallan en la información disponible. La afirmación sobre el primer puesto en políticas de robots es destacable, pero no está verificada frente a evaluaciones independientes: la propia metodología de benchmarking de NVIDIA no se revela aquí.

Anteriormente, NVIDIA lanzó skills y herramientas de agentes de IA física de código abierto junto con un robot humanoide de referencia Isaac GR00T, lo que indica un impulso sostenido para desarrollar su stack para desarrolladores de IA física.

Si las afirmaciones sobre los benchmarks se sostienen bajo un escrutinio independiente, Cosmos 3 ofrece a los desarrolladores de robótica un único modelo de código abierto que sustituye a varios específicos por tarea, lo que reduce la sobrecarga de integración y, potencialmente, rebaja el listón para desplegar políticas de robots capaces.