2 min read

NVIDIA åbner Physical AI-stack for agenter med nye færdigheder til robotteknologi, AV'er og vision-AI

12. juni 2026

NVIDIA Opens Physical AI Stack to Agents With New Skills for Robotics, AVs, and Vision AI

NVIDIA udgav en stor open source-samling af færdigheder og værktøjer til fysiske AI-agenter på GTC Taipei den 31. maj 2026, hvilket lader AI-agenter direkte orkestrere udviklingsarbejdsgange på tværs af robotteknologi, selvkørende køretøjer, vision-AI og industrielle digitale tvillinger.

Hvad det er

De nye færdigheder leveres som en del af NVIDIA Agent Toolkit og pakker NVIDIA's eksisterende biblioteker — Cosmos, Omniverse, Isaac, Metropolis, Alpamayo og Jetson — ind i agent-kaldbare værktøjer. I stedet for at udviklere manuelt kæder datagenerering, simulering, træning, evaluering og implementeringstrin sammen, kan kodningsagenter nu udføre disse pipelines end-to-end ved at følge gentagelige, optimerede instruktioner.

Færdighederne dækker fem domæner:

Robotteknologi og edge-AI: generering af perceptions- og mobilitetsdata, navigationstræning, Isaac GR00T-opdateringer og tuning af Jetson-implementering
Selvkørende køretøjer: rekonstruktion af flådedata til simulering, fotorealistisk scenariegenerering og closed-loop forstærkningslæring via Alpamayo
Vision-AI: syntetisk datagenerering, finjustering af modeller, automatiseret mærkning og live videoanalyse via Metropolis
Industriel AI: konvertering fra CAD til digital tvilling og OpenUSD-sceneoptimering via Omniverse
Sundhedssektor: oprettelse af digitale tvillinger af hospitaler og sim-to-real-politiktest

Agenter kører på Jetson ved kanten. Sikkerheds- og privatlivsstyring håndteres gennem NVIDIA NemoClaw-blueprintet og NVIDIA OpenShell-runtimet.

Hvad er nyt vs. eksisterende teknik

NVIDIA's individuelle biblioteker — Isaac, Omniverse, Cosmos — eksisterede allerede. Skiftet her er at pakke dem ind som agent-kaldbare værktøjer frem for udviklervendte API'er. Ifølge Rev Lebaredian, VP for Physical AI-simulering hos NVIDIA, kan nye end-to-end Isaac GR00T-arbejdsgange nu opsættes på timer frem for uger. Cosmos 3-modellen, annonceret sammen med værktøjssættet, tilføjer en mixture-of-transformers-arkitektur, der kombinerer visionsræsonnement og multimodal generering — tekst, billeder, video, omgivende lyd og handlinger — i en enkelt åben model.

Udbredelse og begrænsninger

Ifølge NVIDIA bruger 1X Technologies, Agile Robots, Agility, FieldAI, Hexagon Robotics, NEURA Robotics, Skild AI og Universal Robots allerede den agent-klare stack. Industrielle partnere, herunder Foxconn, Pegatron, Siemens, TSMC, Dassault Systèmes og Cadence, nævnes også som brugere.

NVIDIA's ydeevnepåstande — benchmark-rangeringer for Cosmos 3, specifikke inferenshastighedstal og tal for forbedret oppetid — angives af virksomheden, men er ikke uafhængigt verificeret i de tilgængelige kilder. Værktøjssættet er open source og tilgængeligt på github.com/NVIDIA/skills, selvom omfanget af dokumentation og letheden ved tredjepartsintegration ikke beskrives i meddelelsen.

Hvis agent-orkestreringslaget indfrier påstanden om opsætning på timer frem for uger, angriber det direkte den software-integrationsflaskehals, der har bremset Physical AI-implementering — et problem, der er veldokumenteret på tværs af branchen. Det ville sænke barren for mindre robotteams, der mangler den tekniske dybde til manuelt at koble simulering, træning og implementeringspipelines sammen.

Share 𝕏 in