IA física
Desarrolle modelos fundacionales mundiales para avanzar en la IA física.
Descripción
NVIDIA Cosmos™ es una plataforma de modelos básicos de mundo (WFM) generativos de vanguardia, tokenizadores avanzados, barreras de protección y un canal de selección y procesamiento de datos acelerados. Está diseñada para potenciar el entrenamiento de modelos de mundo y acelerar el desarrollo de la IA física para vehículos autónomos (VA) y robots.
Cosmos proporciona a los desarrolladores fácil acceso a modelos fundacionales mundiales de alto rendimiento, canalizaciones de datos y herramientas para generar datos sintéticos, además del entrenamiento posterior para la robótica y las aplicaciones de conducción autónoma.
Los modelos fundacionales mundiales se entrenan previamente en 20 millones de horas de robótica y de conducción de datos para generar estados de mundo basados en la física.
Los WFM, las barreras y los tokenizadores de Cosmos tienen licencia en virtud de la licencia del modelo abierto de NVIDIA, lo que permite el acceso a todos los desarrolladores de IA física.
Modelos
Una familia de modelos multimodales preentrenados que los desarrolladores pueden utilizar desde el primer momento para la generación de mundos y el razonamiento, o entrenar después para desarrollar modelos de IA física especializados.
Modelo generalista para una generación de mundos superior y más rápida y la predicción de marcos a partir de entradas multimodales. Entrenado en 9000 billones de tokens de robótica y datos de conducción, y diseñado específicamente para la formación posterior.
Disponible como NIM de Cosmos para la inferencia acelerada en cualquier lugar.
Amplifique el vídeo de entrada a una variedad de entornos y condiciones de iluminación para una generación de mundos basada en la física, condicionada por la realidad sobre el terreno y las entradas estructuradas. Acelere la generación de datos sintéticos controlables utilizando la simulación de datos de referencia de NVIDIA Omniverse™.
Modelo de razonamiento multimodal totalmente personalizable para planificar una respuesta basada en la comprensión espacial y temporal.
Entrenado utilizando modelos de lenguaje visual posteriores al entrenamiento y aprendizaje de refuerzo para razonamiento en cadena de pensamientos.
Desarrolle modelos responsables utilizando los WFM de Cosmos con protección previa para filtrar entradas no seguras y protección posterior para obtener resultados coherentes y seguros.
Cosmos proporciona a los desarrolladores canales de selección de datos abiertos y de alto rendimiento, generadores de tokens, un marco de entrenamiento y scripts posentrenamiento para crear de forma rápida y sencilla modelos de mundos especializados, como modelos de políticas y modelos de acción de lenguaje visual (VLA) para la IA incorporada.
Los desarrolladores posentrenan los WFM de Cosmos o los emparejan con NVIDIA Omniverse para impulsar casos de uso de IA física en fase descendente.
Omniverse crea escenas 3D realistas que se pueden utilizar como entrada para Cosmos Transfer, que las amplifica en diversos entornos e iluminaciones fotorrealistas. Este proceso genera datos escalables y aumentados, que eliminan el cuello de botella de datos para un entrenamiento de modelos fundacionales más eficaz.
Cosmos Reason puede evaluar los datos sintéticos eliminando los resultados que no cumplen con los requisitos de entrenamiento posterior o de evaluación. También genera subtítulos para añadir contexto y ayudar a organizar los datos, lo que acelera el desarrollo de modelos fundacionales para la IA de visión y la IA incorporada.
Un modelo de políticas guía el comportamiento de un sistema de IA física, garantizando que el sistema funcione con seguridad y de acuerdo con sus objetivos. Cosmos Predict o Cosmos Reason se pueden posentrenar en modelos de políticas para generar acciones, lo que ahorra costes, tiempo y necesidades de datos del entrenamiento manual de políticas.
Los WFM de Cosmos aceleran la evaluación de políticas al simular acciones del mundo real a través de salidas de vídeo, utilizando la física de verdad sobre el terreno de Omniverse para obtener precisión. Los desarrolladores pueden crear un modelo de lenguaje de visión-acción (VLA) utilizando Cosmos Reason y añadirlo para criticar e impulsar acciones. Este bucle de simulación reduce los costes, el tiempo y el riesgo de las pruebas en el mundo real, al tiempo que mejora la precisión de las políticas.
Cosmos Predict se puede entrenar posteriormente para generar múltiples vistas o diversas perspectivas de cámara, lo que permite datos de entrenamiento de alta fidelidad, consistentes temporalmente y basados en la física, con vistas de hasta 360° a partir de una única entrada de texto, imagen o vídeo.
Esto aumenta la robustez de los modelos, reduce los errores en los casos perimetrales y acelera los ciclos de desarrollo para las máquinas autónomas, lo que reduce los costes y ofrece implementaciones más rápidas y seguras.
Los modelos, las barreras de protección y los tokenizadores de Cosmos están disponibles en Hugging Face y GitHub, con recursos para abordar la escasez de datos en el entrenamiento de modelos de IA física. Estamos comprometidos con el avance de Cosmos: transparente, abierto y creado para todos.
Los desarrolladores de modelos de robótica, vehículos autónomos y sectores que emplean la IA de visión están utilizando Cosmos para acelerar el desarrollo de la IA física.
Los desarrolladores de IA física pueden empezar ahora con los modelos básicos de mundo de Cosmos, disponibles en Hugging Face y GitHub. Cosmos también proporciona una canalización de extremo a extremo para ajustar los modelos fundacionales con NVIDIA NeMo. Los desarrolladores pueden utilizar el tokenizer Cosmos desde /NVIDIA/cosmos-tokenizer en GitHub y Hugging Face.
Los modelos básicos de mundo de Cosmos están disponibles con licencia de modelo abierto de NVIDIA para todos.
Los scripts de PyTorch están disponibles de forma abierta para todos los modelos de Cosmos para el entrenamiento posterior. Lea la documentación para obtener una guía paso a paso sobre el entrenamiento posterior.
Sí, puede aprovechar Cosmos para crear desde cero con su modelo o arquitectura de modelos preferidos. Puede empezar utilizando NeMo Curator para el preprocesamiento de datos de vídeo. Luego comprima y descodifique sus datos con el tokenizador Cosmos. Una vez que haya procesado los datos, puede entrenar o ajustar su modelo utilizando NVIDIA NeMo.
Utilizando los microservicios NVIDIA NIM™, puede integrar fácilmente sus modelos de IA física en sus aplicaciones en la nube, los centros de datos y las estaciones de trabajo.
También puede utilizar NVIDIA DGX Cloud para entrenar modelos de IA e implementarlos en cualquier lugar a escala.
Omniverse crea simulaciones 3D realistas de tareas del mundo real utilizando diferentes API generativas, SDK y la tecnología de renderizado NVIDIA RTX.
Los desarrolladores pueden introducir simulaciones de Omniverse como vídeos instructivos en modelos de Cosmos Transfer para generar datos sintéticos fotorrealistas controlables.
Juntos, Omniverse proporciona el entorno de simulación antes y después del entrenamiento, mientras que Cosmos proporciona los modelos fundacionales para generar datos de vídeo y entrenar modelos de IA física.
Más información sobre NVIDIA Omniverse.