3 min read

NVIDIA udostępnia agentom stos fizycznej AI dzięki nowym umiejętnościom dla robotyki, pojazdów autonomicznych i wizji AI

NVIDIA Opens Physical AI Stack to Agents With New Skills for Robotics, AVs, and Vision AI

NVIDIA udostępniła obszerny zbiór open source'owych umiejętności i narzędzi agentów fizycznej AI na GTC Taipei 31 maja 2026 roku, umożliwiając agentom AI bezpośrednie orkiestrowanie procesów rozwojowych w robotyce, pojazdach autonomicznych, wizji AI i przemysłowych cyfrowych bliźniakach.

Czym to jest

Nowe umiejętności są dostarczane jako część NVIDIA Agent Toolkit i opakowują istniejące biblioteki NVIDIA — Cosmos, Omniverse, Isaac, Metropolis, Alpamayo i Jetson — w narzędzia wywoływalne przez agentów. Zamiast ręcznego łączenia przez deweloperów kroków generowania danych, symulacji, szkolenia, oceny i wdrażania, agenci kodujący mogą teraz wykonywać te potoki od początku do końca, postępując zgodnie z powtarzalnymi, zoptymalizowanymi instrukcjami.

Umiejętności obejmują pięć dziedzin:

  • Robotyka i edge AI: generowanie danych percepcji i mobilności, szkolenie nawigacji, aktualizacje Isaac GR00T oraz dostrajanie wdrożeń Jetson
  • Pojazdy autonomiczne: rekonstrukcja danych flotowych do symulacji, generowanie fotorealistycznych scenariuszy oraz uczenie ze wzmocnieniem w pętli zamkniętej za pomocą Alpamayo
  • Wizja AI: generowanie danych syntetycznych, dostrajanie modeli, automatyczne etykietowanie i analiza wideo na żywo za pomocą Metropolis
  • Przemysłowa AI: konwersja CAD na cyfrowego bliźniaka i optymalizacja scen OpenUSD za pomocą Omniverse
  • Opieka zdrowotna: tworzenie cyfrowych bliźniaków szpitali i testowanie polityk sim-to-real

Agenci działają na Jetson na brzegu sieci. Zarządzanie bezpieczeństwem i prywatnością odbywa się za pośrednictwem schematu NVIDIA NemoClaw i środowiska uruchomieniowego NVIDIA OpenShell.

Co nowego w porównaniu z wcześniejszymi rozwiązaniami

Poszczególne biblioteki NVIDIA — Isaac, Omniverse, Cosmos — już istniały. Zmiana polega tutaj na opakowaniu ich jako narzędzi wywoływalnych przez agentów, a nie jako interfejsów API skierowanych do deweloperów. Według Reva Lebarediana, wiceprezesa ds. symulacji fizycznej AI w NVIDIA, nowe kompleksowe procesy Isaac GR00T można teraz skonfigurować w godziny zamiast tygodni. Model Cosmos 3, ogłoszony wraz z zestawem narzędzi, dodaje architekturę mixture-of-transformers, która łączy rozumowanie wizyjne i generowanie multimodalne — tekst, obrazy, wideo, dźwięk otoczenia i działania — w jednym otwartym modelu.

Adopcja i ograniczenia

Według NVIDIA firmy 1X Technologies, Agile Robots, Agility, FieldAI, Hexagon Robotics, NEURA Robotics, Skild AI i Universal Robots już korzystają ze stosu gotowego dla agentów. Wymienieni jako użytkownicy są również partnerzy przemysłowi, w tym Foxconn, Pegatron, Siemens, TSMC, Dassault Systèmes i Cadence.

Deklaracje NVIDIA dotyczące wydajności — rankingi w testach porównawczych dla Cosmos 3, konkretne wartości prędkości wnioskowania i liczby poprawy czasu sprawności — są podawane przez firmę, ale nie zostały niezależnie zweryfikowane w dostępnych źródłach. Zestaw narzędzi jest open source i dostępny pod adresem github.com/NVIDIA/skills, choć zakres dokumentacji i łatwość integracji z rozwiązaniami stron trzecich nie są szczegółowo opisane w ogłoszeniu.

Jeśli warstwa orkiestracji agentów spełni obietnicę konfiguracji w godziny zamiast tygodni, bezpośrednio uderzy w wąskie gardło integracji oprogramowania, które spowalniało wdrażanie fizycznej AI — problem dobrze udokumentowany w całej branży. Obniżyłoby to próg dla mniejszych zespołów robotycznych, którym brakuje głębi inżynierskiej, by ręcznie połączyć potoki symulacji, szkolenia i wdrażania.