2 min read

NVIDIA Cosmos 3: jeden open-source model pro text, video, zvuk a akce robotů

11. červen 2026

NVIDIA představila Cosmos 3, omnimodální model světa určený pro fyzickou AI, který v rámci jediné architektury zpracovává text, obrázky, video, zvuk i akce robotů.

Co umí

Cosmos 3 podle oznámení současně uvažuje, generuje a simuluje napříč všemi pěti modalitami. NVIDIA jej prezentuje jako jednotný základ pro vývoj fyzické AI, nikoli jako soubor samostatných specializovaných modelů.

Tvrzení o benchmarcích

NVIDIA uvádí, že Cosmos 3 se mezi open-source modely umisťuje na prvním místě ve třech kategoriích: generování obrázků, generování videa a politika robotů. Zdroj neuvádí, které benchmarky byly použity ani o jak velký náskok nad konkurenčními modely jde.

Upřímná omezení

Zdrojový materiál je co do technických detailů skoupý. Počet parametrů, složení trénovacích dat, hardwarové požadavky na inferenci ani licenční podmínky nejsou v dostupných informacích uvedeny. Tvrzení o umístění v politice robotů je pozoruhodné, ale neověřené nezávislými hodnoceními — vlastní metodika benchmarkování NVIDIA zde není zveřejněna.

NVIDIA dříve vydala open-source dovednosti a nástroje agentů pro fyzickou AI spolu s humanoidním referenčním robotem Isaac GR00T, čímž signalizovala trvalou snahu vybudovat vývojářský stack pro fyzickou AI.

Pokud tvrzení o benchmarcích obstojí v nezávislém přezkoumání, dává Cosmos 3 vývojářům robotiky jediný open-source model, který nahradí několik úkolově specifických — sníží náklady na integraci a potenciálně i laťku pro nasazení schopných politik robotů.

generative ai nvidia open-source physical ai robotics world models

Share 𝕏 in