NVIDIA hat auf der GTC Taipei am 31. Mai 2026 eine umfangreiche Open-Source-Sammlung von Skills und Tools für physische KI-Agenten veröffentlicht, die es KI-Agenten ermöglicht, Entwicklungsabläufe in den Bereichen Robotik, autonome Fahrzeuge, Vision-KI und industrielle digitale Zwillinge direkt zu orchestrieren.
Was es ist
Die neuen Skills werden als Teil des NVIDIA Agent Toolkit ausgeliefert und kapseln NVIDIAs bestehende Bibliotheken – Cosmos, Omniverse, Isaac, Metropolis, Alpamayo und Jetson – in von Agenten aufrufbare Tools. Anstatt dass Entwickler die Schritte zur Datengenerierung, Simulation, zum Training, zur Bewertung und zum Einsatz manuell aneinanderreihen, können Coding-Agenten diese Pipelines nun durchgängig ausführen, indem sie wiederholbaren, optimierten Anweisungen folgen.
Die Skills decken fünf Bereiche ab:
- Robotik und Edge-KI: Datengenerierung für Wahrnehmung und Mobilität, Navigationstraining, Isaac-GR00T-Updates und Jetson-Deployment-Tuning
- Autonome Fahrzeuge: Rekonstruktion von Flottendaten in Simulationen, fotorealistische Szenariogenerierung und Closed-Loop-Reinforcement-Learning über Alpamayo
- Vision-KI: Generierung synthetischer Daten, Feinabstimmung von Modellen, automatisiertes Labeling und Live-Videoanalyse über Metropolis
- Industrielle KI: CAD-zu-digitalem-Zwilling-Konvertierung und OpenUSD-Szenenoptimierung über Omniverse
- Gesundheitswesen: Erstellung digitaler Krankenhaus-Zwillinge und Sim-to-Real-Policy-Tests
Agenten laufen am Edge auf Jetson. Sicherheits- und Datenschutz-Governance wird über das NVIDIA-NemoClaw-Blueprint und die NVIDIA-OpenShell-Laufzeitumgebung gehandhabt.
Was neu ist gegenüber dem bisherigen Stand
NVIDIAs einzelne Bibliotheken – Isaac, Omniverse, Cosmos – existierten bereits. Die Neuerung besteht darin, sie als von Agenten aufrufbare Tools statt als entwicklerorientierte APIs zu kapseln. Laut Rev Lebaredian, VP für Physical-AI-Simulation bei NVIDIA, lassen sich neue durchgängige Isaac-GR00T-Workflows nun in Stunden statt in Wochen einrichten. Das zusammen mit dem Toolkit angekündigte Cosmos-3-Modell fügt eine Mixture-of-Transformers-Architektur hinzu, die visuelles Schlussfolgern und multimodale Generierung – Text, Bilder, Video, Umgebungsgeräusche und Aktionen – in einem einzigen offenen Modell vereint.
Akzeptanz und Einschränkungen
Laut NVIDIA nutzen 1X Technologies, Agile Robots, Agility, FieldAI, Hexagon Robotics, NEURA Robotics, Skild AI und Universal Robots den agentenbereiten Stack bereits. Auch Industriepartner wie Foxconn, Pegatron, Siemens, TSMC, Dassault Systèmes und Cadence werden als Nutzer genannt.
NVIDIAs Leistungsbehauptungen – Benchmark-Rankings für Cosmos 3, konkrete Inferenzgeschwindigkeitswerte und Zahlen zur Verbesserung der Verfügbarkeit – werden vom Unternehmen angegeben, sind in den verfügbaren Quellen jedoch nicht unabhängig verifiziert. Das Toolkit ist Open Source und unter github.com/NVIDIA/skills verfügbar, wobei der Umfang der Dokumentation und die Einfachheit der Integration durch Dritte in der Ankündigung nicht ausgeführt werden.
Wenn die Agenten-Orchestrierungsschicht das Versprechen einer Einrichtung in Stunden statt Wochen einlöst, greift sie direkt den Engpass bei der Softwareintegration an, der den Einsatz physischer KI gebremst hat – ein branchenweit gut dokumentiertes Problem. Das würde die Hürde für kleinere Robotikteams senken, denen die technische Tiefe fehlt, um Simulations-, Trainings- und Deployment-Pipelines manuell zusammenzufügen.