2 min read

NVIDIA Cosmos 3: één open-sourcemodel voor tekst, video, audio en robotacties

NVIDIA heeft Cosmos 3 uitgebracht, een omnimodaal wereldmodel ontworpen voor physical AI dat tekst, afbeeldingen, video, audio en robotacties binnen één architectuur verwerkt.

Wat het doet

Cosmos 3 redeneert, genereert en simuleert gelijktijdig over alle vijf modaliteiten, aldus de aankondiging. NVIDIA positioneert het als een uniform fundament voor de ontwikkeling van physical AI in plaats van een verzameling afzonderlijke gespecialiseerde modellen.

Benchmarkclaims

NVIDIA stelt dat Cosmos 3 de eerste plaats inneemt onder open-sourcemodellen in drie categorieën: beeldgeneratie, videogeneratie en robotbeleid. De bron vermeldt niet welke benchmarks zijn gebruikt of de mate van verbetering ten opzichte van concurrerende modellen.

Eerlijke beperkingen

Het bronmateriaal is karig met technische details. Het aantal parameters, de samenstelling van de trainingsdata, de hardwarevereisten voor inferentie en de licentievoorwaarden worden in de beschikbare informatie niet toegelicht. De claim over de ranglijst voor robotbeleid is opmerkelijk, maar niet geverifieerd aan de hand van onafhankelijke evaluaties — NVIDIA's eigen benchmarkmethodologie wordt hier niet onthuld.

Eerder bracht NVIDIA open-source physical AI-agentvaardigheden en -tools uit, samen met een Isaac GR00T humanoïde referentierobot, wat wijst op een aanhoudende inspanning om zijn physical AI-ontwikkelaarsstack uit te bouwen.

Als de benchmarkclaims onder onafhankelijke toetsing standhouden, geeft Cosmos 3 roboticaontwikkelaars één open-sourcemodel om verschillende taakspecifieke modellen te vervangen — wat de integratie-overhead vermindert en de drempel voor het inzetten van capabel robotbeleid mogelijk verlaagt.