A NVIDIA lançou o Cosmos 3, um modelo de mundo omnimodal concebido para a IA Física que lida com texto, imagens, vídeo, áudio e ações de robôs numa única arquitetura.
O que faz
O Cosmos 3 raciocina, gera e simula em todas as cinco modalidades em simultâneo, segundo o anúncio. A NVIDIA posiciona-o como uma base unificada para o desenvolvimento de IA física, em vez de um conjunto de modelos especializados separados.
Afirmações sobre benchmarks
A NVIDIA afirma que o Cosmos 3 ocupa o primeiro lugar entre os modelos de código aberto em três categorias: geração de imagem, geração de vídeo e política de robôs. A fonte não especifica que benchmarks foram utilizados nem a margem de melhoria face aos modelos concorrentes.
Limitações honestas
O material de origem é escasso em pormenores técnicos. O número de parâmetros, a composição dos dados de treino, os requisitos de hardware de inferência e os termos de licenciamento não são detalhados na informação disponível. A afirmação sobre a classificação na política de robôs é notável, mas não está verificada face a avaliações independentes — a própria metodologia de benchmarking da NVIDIA não é divulgada aqui.
Anteriormente, a NVIDIA lançou competências e ferramentas de código aberto para agentes de IA física, juntamente com um robô humanoide de referência Isaac GR00T, sinalizando um esforço continuado para desenvolver a sua stack de desenvolvimento de IA física.
Se as afirmações sobre os benchmarks se confirmarem sob escrutínio independente, o Cosmos 3 dá aos programadores de robótica um único modelo de código aberto para substituir vários modelos específicos — reduzindo a sobrecarga de integração e potencialmente baixando o limiar para a implementação de políticas de robôs capazes.