1 min read

NVIDIA Cosmos 3: Én open source-model til tekst, video, lyd og robothandlinger

NVIDIA har udgivet Cosmos 3, en omnimodal verdensmodel designet til Physical AI, der håndterer tekst, billeder, video, lyd og robothandlinger inden for en enkelt arkitektur.

Hvad den gør

Cosmos 3 ræsonnerer, genererer og simulerer på tværs af alle fem modaliteter samtidigt, ifølge udgivelsen. NVIDIA positionerer den som et samlet fundament for Physical AI-udvikling frem for en samling af separate specialiserede modeller.

Benchmark-påstande

NVIDIA oplyser, at Cosmos 3 ligger nummer et blandt open source-modeller i tre kategorier: billedgenerering, videogenerering og robotpolitik. Kilden angiver ikke, hvilke benchmarks der blev brugt, eller forbedringsmargenen i forhold til konkurrerende modeller.

Ærlige begrænsninger

Kildematerialet er sparsomt med tekniske detaljer. Parameterantal, sammensætning af træningsdata, krav til inferenshardware og licensbetingelser er ikke beskrevet i de tilgængelige oplysninger. Påstanden om robotpolitik-rangeringen er bemærkelsesværdig, men uverificeret mod uafhængige evalueringer — NVIDIA's egen benchmarking-metode er ikke oplyst her.

Tidligere udgav NVIDIA open source-færdigheder og -værktøjer til fysiske AI-agenter sammen med en Isaac GR00T-humanoidreferencerobot, hvilket signalerede et vedvarende fremstød for at opbygge sin Physical AI-udviklerstack.

Hvis benchmark-påstandene holder under uafhængig granskning, giver Cosmos 3 robotudviklere en enkelt open source-model til at erstatte flere opgavespecifikke — hvilket reducerer integrationsbyrden og potentielt sænker barren for at implementere kompetente robotpolitikker.