3 min read

NVIDIA abre su stack de IA física a los agentes con nuevas skills para robótica, vehículos autónomos y visión por IA

NVIDIA Opens Physical AI Stack to Agents With New Skills for Robotics, AVs, and Vision AI

NVIDIA lanzó una importante colección de código abierto de skills y herramientas de agentes de IA física en GTC Taipéi el 31 de mayo de 2026, que permite a los agentes de IA orquestar directamente flujos de trabajo de desarrollo en robótica, vehículos autónomos, visión por IA y gemelos digitales industriales.

Qué es

Las nuevas skills se distribuyen como parte del NVIDIA Agent Toolkit y envuelven las bibliotecas existentes de NVIDIA (Cosmos, Omniverse, Isaac, Metropolis, Alpamayo y Jetson) en herramientas invocables por agentes. En lugar de que los desarrolladores encadenen manualmente los pasos de generación de datos, simulación, entrenamiento, evaluación y despliegue, los agentes de programación ahora pueden ejecutar esas cadenas de principio a fin siguiendo instrucciones repetibles y optimizadas.

Las skills abarcan cinco ámbitos:

  • Robótica e IA en el edge: generación de datos de percepción y movilidad, entrenamiento de navegación, actualizaciones de Isaac GR00T y ajuste del despliegue en Jetson
  • Vehículos autónomos: reconstrucción de datos de flotas en simulación, generación de escenarios fotorrealistas y aprendizaje por refuerzo de bucle cerrado mediante Alpamayo
  • Visión por IA: generación de datos sintéticos, ajuste fino de modelos, etiquetado automatizado y análisis de vídeo en directo mediante Metropolis
  • IA industrial: conversión de CAD a gemelo digital y optimización de escenas OpenUSD mediante Omniverse
  • Sanidad: creación de gemelos digitales hospitalarios y pruebas de políticas de simulación a realidad

Los agentes se ejecutan en Jetson en el edge. La gobernanza de seguridad y privacidad se gestiona a través del blueprint NVIDIA NemoClaw y el entorno de ejecución NVIDIA OpenShell.

Qué hay de nuevo frente a lo anterior

Las bibliotecas individuales de NVIDIA (Isaac, Omniverse, Cosmos) ya existían. El cambio aquí consiste en envolverlas como herramientas invocables por agentes en lugar de como API orientadas a los desarrolladores. Según Rev Lebaredian, vicepresidente de simulación de IA física en NVIDIA, los nuevos flujos de trabajo de Isaac GR00T de principio a fin pueden configurarse ahora en horas en lugar de semanas. El modelo Cosmos 3, anunciado junto con el toolkit, añade una arquitectura de mezcla de transformadores que combina el razonamiento visual y la generación multimodal (texto, imágenes, vídeo, sonido ambiental y acciones) en un único modelo abierto.

Adopción y limitaciones

Según NVIDIA, 1X Technologies, Agile Robots, Agility, FieldAI, Hexagon Robotics, NEURA Robotics, Skild AI y Universal Robots ya están utilizando el stack preparado para agentes. También se mencionan como usuarios socios industriales como Foxconn, Pegatron, Siemens, TSMC, Dassault Systèmes y Cadence.

Las afirmaciones de NVIDIA sobre el rendimiento (las clasificaciones de benchmark de Cosmos 3, las cifras concretas de velocidad de inferencia y los números de mejora del tiempo de actividad) son afirmadas por la empresa, pero no están verificadas de forma independiente en las fuentes disponibles. El toolkit es de código abierto y está disponible en github.com/NVIDIA/skills, aunque la amplitud de la documentación y la facilidad de integración por parte de terceros no se detallan en el anuncio.

Si la capa de orquestación de agentes cumple con la promesa de configuración en horas y no en semanas, ataca directamente el cuello de botella de la integración de software que ha frenado el despliegue de la IA física, un problema bien documentado en todo el sector. Eso rebajaría la barrera para los equipos de robótica más pequeños que carecen de la profundidad de ingeniería necesaria para conectar manualmente las cadenas de simulación, entrenamiento y despliegue.