NVIDIA udostępniła obszerny zbiór open source'owych umiejętności i narzędzi agentów fizycznej AI na GTC Taipei 31 maja 2026 roku, umożliwiając agentom AI bezpośrednie orkiestrowanie procesów rozwojowych w robotyce, pojazdach autonomicznych, wizji AI i przemysłowych cyfrowych bliźniakach.
Czym to jest
Nowe umiejętności są dostarczane jako część NVIDIA Agent Toolkit i opakowują istniejące biblioteki NVIDIA — Cosmos, Omniverse, Isaac, Metropolis, Alpamayo i Jetson — w narzędzia wywoływalne przez agentów. Zamiast ręcznego łączenia przez deweloperów kroków generowania danych, symulacji, szkolenia, oceny i wdrażania, agenci kodujący mogą teraz wykonywać te potoki od początku do końca, postępując zgodnie z powtarzalnymi, zoptymalizowanymi instrukcjami.
Umiejętności obejmują pięć dziedzin:
- Robotyka i edge AI: generowanie danych percepcji i mobilności, szkolenie nawigacji, aktualizacje Isaac GR00T oraz dostrajanie wdrożeń Jetson
- Pojazdy autonomiczne: rekonstrukcja danych flotowych do symulacji, generowanie fotorealistycznych scenariuszy oraz uczenie ze wzmocnieniem w pętli zamkniętej za pomocą Alpamayo
- Wizja AI: generowanie danych syntetycznych, dostrajanie modeli, automatyczne etykietowanie i analiza wideo na żywo za pomocą Metropolis
- Przemysłowa AI: konwersja CAD na cyfrowego bliźniaka i optymalizacja scen OpenUSD za pomocą Omniverse
- Opieka zdrowotna: tworzenie cyfrowych bliźniaków szpitali i testowanie polityk sim-to-real
Agenci działają na Jetson na brzegu sieci. Zarządzanie bezpieczeństwem i prywatnością odbywa się za pośrednictwem schematu NVIDIA NemoClaw i środowiska uruchomieniowego NVIDIA OpenShell.
Co nowego w porównaniu z wcześniejszymi rozwiązaniami
Poszczególne biblioteki NVIDIA — Isaac, Omniverse, Cosmos — już istniały. Zmiana polega tutaj na opakowaniu ich jako narzędzi wywoływalnych przez agentów, a nie jako interfejsów API skierowanych do deweloperów. Według Reva Lebarediana, wiceprezesa ds. symulacji fizycznej AI w NVIDIA, nowe kompleksowe procesy Isaac GR00T można teraz skonfigurować w godziny zamiast tygodni. Model Cosmos 3, ogłoszony wraz z zestawem narzędzi, dodaje architekturę mixture-of-transformers, która łączy rozumowanie wizyjne i generowanie multimodalne — tekst, obrazy, wideo, dźwięk otoczenia i działania — w jednym otwartym modelu.
Adopcja i ograniczenia
Według NVIDIA firmy 1X Technologies, Agile Robots, Agility, FieldAI, Hexagon Robotics, NEURA Robotics, Skild AI i Universal Robots już korzystają ze stosu gotowego dla agentów. Wymienieni jako użytkownicy są również partnerzy przemysłowi, w tym Foxconn, Pegatron, Siemens, TSMC, Dassault Systèmes i Cadence.
Deklaracje NVIDIA dotyczące wydajności — rankingi w testach porównawczych dla Cosmos 3, konkretne wartości prędkości wnioskowania i liczby poprawy czasu sprawności — są podawane przez firmę, ale nie zostały niezależnie zweryfikowane w dostępnych źródłach. Zestaw narzędzi jest open source i dostępny pod adresem github.com/NVIDIA/skills, choć zakres dokumentacji i łatwość integracji z rozwiązaniami stron trzecich nie są szczegółowo opisane w ogłoszeniu.
Jeśli warstwa orkiestracji agentów spełni obietnicę konfiguracji w godziny zamiast tygodni, bezpośrednio uderzy w wąskie gardło integracji oprogramowania, które spowalniało wdrażanie fizycznej AI — problem dobrze udokumentowany w całej branży. Obniżyłoby to próg dla mniejszych zespołów robotycznych, którym brakuje głębi inżynierskiej, by ręcznie połączyć potoki symulacji, szkolenia i wdrażania.