IA física

NVIDIA Cosmos

Desarrolle modelos fundacionales mundiales para avanzar en la IA física.

Descripción

¿Qué es NVIDIA Cosmos?

NVIDIA Cosmos™ es una plataforma de modelos básicos de mundo (WFM) generativos de vanguardia, tokenizadores avanzados, barreras de protección y un canal de selección y procesamiento de datos acelerados. Está diseñada para potenciar el entrenamiento de modelos de mundo y acelerar el desarrollo de la IA física para vehículos autónomos (VA) y robots.

NVIDIA impulsa la robótica humanoide con plataformas de computación que van de la nube a los robots

Los nuevos modelos abiertos de NVIDIA Isaac™ GR00T y el blueprint de GR00T-Dreams para generar datos sintéticos están impulsando el razonamiento y el comportamiento de los robots humanoides.

Escale datos sintéticos y razonamiento de IA física con NVIDIA Cosmos

Explore los últimos WFM de NVIDIA Cosmos para el razonamiento avanzado y la generación de datos sintéticos controlables, lo que permite la próxima generación de humanoides y vehículos autónomos impulsados por IA.

Ventajas

Acelere la generación de mundos virtuales para la IA física

Cosmos proporciona a los desarrolladores fácil acceso a modelos fundacionales mundiales de alto rendimiento, canalizaciones de datos y herramientas para generar datos sintéticos, además del entrenamiento posterior para la robótica y las aplicaciones de conducción autónoma.

Primeros datos de la física

Los modelos fundacionales mundiales se entrenan previamente en 20 millones de horas de robótica y de conducción de datos para generar estados de mundo basados en la física.

Abiertos

Los WFM, las barreras y los tokenizadores de Cosmos tienen licencia en virtud de la licencia del modelo abierto de NVIDIA, lo que permite el acceso a todos los desarrolladores de IA física.

Modelos

Modelos fundacionales mundiales de Cosmos

Una familia de modelos multimodales preentrenados que los desarrolladores pueden utilizar desde el primer momento para la generación de mundos y el razonamiento, o entrenar después para desarrollar modelos de IA física especializados.

Cosmos Predict

Modelo generalista para una generación de mundos superior y más rápida y la predicción de marcos a partir de entradas multimodales. Entrenado en 9000 billones de tokens de robótica y datos de conducción, y diseñado específicamente para la formación posterior.

Disponible como NIM de Cosmos para la inferencia acelerada en cualquier lugar.

Cosmos Transfer

Amplifique el vídeo de entrada a una variedad de entornos y condiciones de iluminación para una generación de mundos basada en la física, condicionada por la realidad sobre el terreno y las entradas estructuradas. Acelere la generación de datos sintéticos controlables utilizando la simulación de datos de referencia de NVIDIA Omniverse™.

Cosmos Reason

Modelo de razonamiento multimodal totalmente personalizable para planificar una respuesta basada en la comprensión espacial y temporal. 

Entrenado utilizando modelos de lenguaje visual posteriores al entrenamiento y aprendizaje de refuerzo para razonamiento en cadena de pensamientos.

Cosmos Guardrail

Desarrolle modelos responsables utilizando los WFM de Cosmos con protección previa para filtrar entradas no seguras y protección posterior para obtener resultados coherentes y seguros.

Herramientas

Modelos fundacionales mundiales de Cosmos posentrenamiento

Cosmos proporciona a los desarrolladores canales de selección de datos abiertos y de alto rendimiento, generadores de tokens, un marco de entrenamiento y scripts posentrenamiento para crear de forma rápida y sencilla modelos de mundos especializados, como modelos de políticas y modelos de acción de lenguaje visual (VLA) para la IA incorporada.

Tokenice de forma eficiente datos de vídeo

Utilice los tokenizadores de Cosmos para generar tokens de imagen o vídeo a tasas de compresión más altas, para un desarrollo escalable, robusto y eficiente de modelos de mundo de gran tamaño. Elija variantes de alta o baja resolución para posentrenar WFM de Cosmos en modelos de IA especializados.

Acelere la selección de datos

Acelere 20 veces la selección de datos con la canalización NVIDIA NeMo™ Curator de CUDA-X™ y las herramientas aceleradas por NVIDIA AI para procesar más de 100 PB de datos. Proporciona optimizaciones listas para usar, que minimizan el coste total de propiedad (TCO, por sus siglas en inglés) y aceleran el tiempo de comercialización.

Soporte de desarrollo totalmente gestionado

NVIDIA DGX Cloud es una plataforma de IA de alto rendimiento para el entrenamiento acelerado, que permite a los desarrolladores seleccionar datos, entrenar posteriormente e implementar modelos fundacionales mundiales y de vídeo, con un servicio totalmente gestionado.

Script posterior al entrenamiento

Personalice los WFM de Cosmos para aplicaciones de IA física en etapas posteriores utilizando los scripts de PyTorch. Posentrenamiento de modelos para generar acciones o texto, o modificar la longitud, la precisión, la vista y los controles de cámara para adaptarse a los escenarios y requisitos del mundo real.

Casos de uso

Cómo usan los desarrolladores NVIDIA Cosmos

Los desarrolladores posentrenan los WFM de Cosmos o los emparejan con NVIDIA Omniverse para impulsar casos de uso de IA física en fase descendente.

Generación de datos sintéticos (SDG)

Omniverse crea escenas 3D realistas que se pueden utilizar como entrada para Cosmos Transfer, que las amplifica en diversos entornos e iluminaciones fotorrealistas. Este proceso genera datos escalables y aumentados, que eliminan el cuello de botella de datos para un entrenamiento de modelos fundacionales más eficaz.

Cosmos Reason puede evaluar los datos sintéticos eliminando los resultados que no cumplen con los requisitos de entrenamiento posterior o de evaluación. También genera subtítulos para añadir contexto y ayudar a organizar los datos, lo que acelera el desarrollo de modelos fundacionales para la IA de visión y la IA incorporada.

Inicialización del modelo de políticas

Un modelo de políticas guía el comportamiento de un sistema de IA física, garantizando que el sistema funcione con seguridad y de acuerdo con sus objetivos. Cosmos Predict o Cosmos Reason se pueden posentrenar en modelos de políticas para generar acciones, lo que ahorra costes, tiempo y necesidades de datos del entrenamiento manual de políticas.

Evaluación de modelos de políticas

Los WFM de Cosmos aceleran la evaluación de políticas al simular acciones del mundo real a través de salidas de vídeo, utilizando la física de verdad sobre el terreno de Omniverse para obtener precisión. Los desarrolladores pueden crear un modelo de lenguaje de visión-acción (VLA) utilizando Cosmos Reason y añadirlo para criticar e impulsar acciones. Este bucle de simulación reduce los costes, el tiempo y el riesgo de las pruebas en el mundo real, al tiempo que mejora la precisión de las políticas.

Generación de múltiples vistas

Cosmos Predict se puede entrenar posteriormente para generar múltiples vistas o diversas perspectivas de cámara, lo que permite datos de entrenamiento de alta fidelidad, consistentes temporalmente y basados en la física, con vistas de hasta 360° a partir de una única entrada de texto, imagen o vídeo.

Esto aumenta la robustez de los modelos, reduce los errores en los casos perimetrales y acelera los ciclos de desarrollo para las máquinas autónomas, lo que reduce los costes y ofrece implementaciones más rápidas y seguras.

Nuestro compromiso

Democratización de la IA de confianza para la comunidad de la IA física

Los modelos, las barreras de protección y los tokenizadores de Cosmos están disponibles en Hugging Face y GitHub, con recursos para abordar la escasez de datos en el entrenamiento de modelos de IA física. Estamos comprometidos con el avance de Cosmos: transparente, abierto y creado para todos.

Ecosistema

Adoptado por los principales innovadores en el campo de la IA física

Los desarrolladores de modelos de robótica, vehículos autónomos y sectores que emplean la IA de visión están utilizando Cosmos para acelerar el desarrollo de la IA física.

Próximos pasos

¿Listo para empezar?

Pruebe un modelo básico de mundo en el catálogo de API de NVIDIA o empiece a crear sus modelos de mundo utilizando NVIDIA Cosmos.

Posentrenamiento de WFM

Los WFM de Cosmos están diseñados específicamente para aplicaciones de entrenamiento posteriores, que desbloquean potentes modelos mundiales en etapas posteriores para acelerar el desarrollo de la IA física.

Selección de datos de vídeo para modelos mundiales

Aproveche un canal acelerado de procesamiento y selección de datos con la tecnología de NVIDIA NeMo Curator optimizada para las GPU de centro de datos de NVIDIA.

Preguntas frecuentes

Los desarrolladores de IA física pueden empezar ahora con los modelos básicos de mundo de Cosmos, disponibles en Hugging Face y GitHub. Cosmos también proporciona una canalización de extremo a extremo para ajustar los modelos fundacionales con NVIDIA NeMo. Los desarrolladores pueden utilizar el tokenizer Cosmos desde /NVIDIA/cosmos-tokenizer en GitHub y Hugging Face.

Los modelos básicos de mundo de Cosmos están disponibles con licencia de modelo abierto de NVIDIA para todos.

Los scripts de PyTorch están disponibles de forma abierta para todos los modelos de Cosmos para el entrenamiento posterior. Lea la documentación para obtener una guía paso a paso sobre el entrenamiento posterior.

Sí, puede aprovechar Cosmos para crear desde cero con su modelo o arquitectura de modelos preferidos. Puede empezar utilizando NeMo Curator para el preprocesamiento de datos de vídeo. Luego comprima y descodifique sus datos con el tokenizador Cosmos. Una vez que haya procesado los datos, puede entrenar o ajustar su modelo utilizando NVIDIA NeMo.

Utilizando los microservicios NVIDIA NIM™, puede integrar fácilmente sus modelos de IA física en sus aplicaciones en la nube, los centros de datos y las estaciones de trabajo.

También puede utilizar NVIDIA DGX Cloud para entrenar modelos de IA e implementarlos en cualquier lugar a escala.

Omniverse crea simulaciones 3D realistas de tareas del mundo real utilizando diferentes API generativas, SDK y la tecnología de renderizado NVIDIA RTX.

Los desarrolladores pueden introducir simulaciones de Omniverse como vídeos instructivos en modelos de Cosmos Transfer para generar datos sintéticos fotorrealistas controlables.

Juntos, Omniverse proporciona el entorno de simulación antes y después del entrenamiento, mientras que Cosmos proporciona los modelos fundacionales para generar datos de vídeo y entrenar modelos de IA física.

Más información sobre NVIDIA Omniverse.