NVIDIA har udgivet Cosmos 3, en omnimodal verdensmodel designet til Physical AI, der håndterer tekst, billeder, video, lyd og robothandlinger inden for en enkelt arkitektur.
Hvad den gør
Cosmos 3 ræsonnerer, genererer og simulerer på tværs af alle fem modaliteter samtidigt, ifølge udgivelsen. NVIDIA positionerer den som et samlet fundament for Physical AI-udvikling frem for en samling af separate specialiserede modeller.
Benchmark-påstande
NVIDIA oplyser, at Cosmos 3 ligger nummer et blandt open source-modeller i tre kategorier: billedgenerering, videogenerering og robotpolitik. Kilden angiver ikke, hvilke benchmarks der blev brugt, eller forbedringsmargenen i forhold til konkurrerende modeller.
Ærlige begrænsninger
Kildematerialet er sparsomt med tekniske detaljer. Parameterantal, sammensætning af træningsdata, krav til inferenshardware og licensbetingelser er ikke beskrevet i de tilgængelige oplysninger. Påstanden om robotpolitik-rangeringen er bemærkelsesværdig, men uverificeret mod uafhængige evalueringer — NVIDIA's egen benchmarking-metode er ikke oplyst her.
Tidligere udgav NVIDIA open source-færdigheder og -værktøjer til fysiske AI-agenter sammen med en Isaac GR00T-humanoidreferencerobot, hvilket signalerede et vedvarende fremstød for at opbygge sin Physical AI-udviklerstack.
Hvis benchmark-påstandene holder under uafhængig granskning, giver Cosmos 3 robotudviklere en enkelt open source-model til at erstatte flere opgavespecifikke — hvilket reducerer integrationsbyrden og potentielt sænker barren for at implementere kompetente robotpolitikker.