NVIDIA představila Cosmos 3, omnimodální model světa určený pro fyzickou AI, který v rámci jediné architektury zpracovává text, obrázky, video, zvuk i akce robotů.
Co umí
Cosmos 3 podle oznámení současně uvažuje, generuje a simuluje napříč všemi pěti modalitami. NVIDIA jej prezentuje jako jednotný základ pro vývoj fyzické AI, nikoli jako soubor samostatných specializovaných modelů.
Tvrzení o benchmarcích
NVIDIA uvádí, že Cosmos 3 se mezi open-source modely umisťuje na prvním místě ve třech kategoriích: generování obrázků, generování videa a politika robotů. Zdroj neuvádí, které benchmarky byly použity ani o jak velký náskok nad konkurenčními modely jde.
Upřímná omezení
Zdrojový materiál je co do technických detailů skoupý. Počet parametrů, složení trénovacích dat, hardwarové požadavky na inferenci ani licenční podmínky nejsou v dostupných informacích uvedeny. Tvrzení o umístění v politice robotů je pozoruhodné, ale neověřené nezávislými hodnoceními — vlastní metodika benchmarkování NVIDIA zde není zveřejněna.
NVIDIA dříve vydala open-source dovednosti a nástroje agentů pro fyzickou AI spolu s humanoidním referenčním robotem Isaac GR00T, čímž signalizovala trvalou snahu vybudovat vývojářský stack pro fyzickou AI.
Pokud tvrzení o benchmarcích obstojí v nezávislém přezkoumání, dává Cosmos 3 vývojářům robotiky jediný open-source model, který nahradí několik úkolově specifických — sníží náklady na integraci a potenciálně i laťku pro nasazení schopných politik robotů.