3 min read

A NVIDIA abre a sua stack de IA Física a agentes com novas competências para robótica, veículos autónomos e IA de visão

NVIDIA Opens Physical AI Stack to Agents With New Skills for Robotics, AVs, and Vision AI

A NVIDIA lançou uma importante coleção de código aberto de competências e ferramentas para agentes de IA física na GTC Taipei, a 31 de maio de 2026, permitindo que os agentes de IA orquestrem diretamente fluxos de trabalho de desenvolvimento em robótica, veículos autónomos, IA de visão e gémeos digitais industriais.

O que é

As novas competências são fornecidas como parte do NVIDIA Agent Toolkit e encapsulam as bibliotecas existentes da NVIDIA — Cosmos, Omniverse, Isaac, Metropolis, Alpamayo e Jetson — em ferramentas invocáveis por agentes. Em vez de os programadores encadearem manualmente os passos de geração de dados, simulação, treino, avaliação e implementação, os agentes de programação podem agora executar esses pipelines de ponta a ponta seguindo instruções repetíveis e otimizadas.

As competências abrangem cinco domínios:

  • Robótica e IA de extremidade: geração de dados de perceção e mobilidade, treino de navegação, atualizações do Isaac GR00T e otimização da implementação no Jetson
  • Veículos autónomos: reconstrução de dados de frotas em simulação, geração de cenários fotorrealistas e aprendizagem por reforço em malha fechada através do Alpamayo
  • IA de visão: geração de dados sintéticos, afinação de modelos, etiquetagem automatizada e análise de vídeo em direto através do Metropolis
  • IA industrial: conversão de CAD em gémeo digital e otimização de cenas OpenUSD através do Omniverse
  • Saúde: criação de gémeos digitais de hospitais e teste de políticas de simulação para o mundo real

Os agentes são executados no Jetson, na extremidade da rede. A governação de segurança e privacidade é assegurada através do blueprint NVIDIA NemoClaw e do runtime NVIDIA OpenShell.

O que há de novo face ao que já existia

As bibliotecas individuais da NVIDIA — Isaac, Omniverse, Cosmos — já existiam. A mudança aqui está em encapsulá-las como ferramentas invocáveis por agentes, em vez de APIs orientadas para programadores. Segundo Rev Lebaredian, VP de simulação de IA física na NVIDIA, os novos fluxos de trabalho Isaac GR00T de ponta a ponta podem agora ser configurados em horas em vez de semanas. O modelo Cosmos 3, anunciado em conjunto com o toolkit, acrescenta uma arquitetura de mistura de transformers que combina o raciocínio de visão e a geração multimodal — texto, imagens, vídeo, som ambiente e ações — num único modelo aberto.

Adoção e limitações

Segundo a NVIDIA, a 1X Technologies, a Agile Robots, a Agility, a FieldAI, a Hexagon Robotics, a NEURA Robotics, a Skild AI e a Universal Robots já estão a utilizar a stack pronta para agentes. São também nomeados como utilizadores parceiros industriais, incluindo a Foxconn, a Pegatron, a Siemens, a TSMC, a Dassault Systèmes e a Cadence.

As afirmações de desempenho da NVIDIA — classificações em benchmarks para o Cosmos 3, valores específicos de velocidade de inferência e números de melhoria do tempo de atividade — são apresentadas pela empresa, mas não estão verificadas de forma independente nas fontes disponíveis. O toolkit é de código aberto e está disponível em github.com/NVIDIA/skills, embora a abrangência da documentação e a facilidade de integração por terceiros não sejam detalhadas no anúncio.

Se a camada de orquestração de agentes cumprir a promessa de configuração em horas em vez de semanas, ataca diretamente o estrangulamento da integração de software que tem atrasado a implementação da IA física — um problema bem documentado em toda a indústria. Isso reduziria a barreira para as equipas de robótica mais pequenas, que não têm a profundidade de engenharia necessária para interligar manualmente os pipelines de simulação, treino e implementação.