Progettati per la distribuzione rapida e affidabile dell'inferenza IA generativa accelerata ovunque.
NVIDIA NIM™ fornisce microservizi di inferenza pre-costruiti e ottimizzati per la distribuzione rapida dei modelli IA più recenti su qualsiasi infrastruttura accelerata da NVIDIA: cloud, data center, workstation ed edge.
NVIDIA NIM combina la facilità d'uso e la semplicità operativa delle API gestite con la flessibilità e la sicurezza dei modelli di self-hosting sull'infrastruttura preferita. I microservizi NIM includono tutto ciò di cui i team IA hanno bisogno: i più recenti modelli di base IA, i motori di inferenza ottimizzati, le API standard di settore e le dipendenze di runtime, il tutto pre-confezionato in container software di livello aziendale pronti per la distribuzione e la scalabilità ovunque.
Microservizi facili e di livello aziendale progettati per l'IA ad alte prestazioni, per funzionare facilmente e scalare in modo conveniente. Scopri il più rapido time-to-value per agenti IA e altre applicazioni di IA generativa aziendale basate sui più recenti modelli IA per il ragionamento, la simulazione, la voce e altro ancora.
Accelera l'innovazione e il time-to-market con microservizi pre-costruiti e ottimizzati per i più recenti modelli IA. Grazie alle API standard, i modelli possono essere distribuiti in cinque minuti e facilmente integrati nelle applicazioni.
Distribuisci microservizi di livello aziendale continuamente gestiti da NVIDIA attraverso processi di convalida rigorosi e rami di funzionalità dedicate, il tutto sostenuto dal supporto aziendale di NVIDIA, che offre anche accesso diretto agli esperti di NVIDIA AI.
Migliora il TCO con l'inferenza IA a bassa latenza e ad alto throughput scalabile nel cloud e ottieni la migliore precisione con il supporto per modelli ottimizzati pronti all'uso.
Distribuisci ovunque con microservizi cloud-native e pre-costruiti pronti per l'esecuzione su qualsiasi infrastruttura accelerata da NVIDIA, cloud, data center e workstation, e scala facilmente su ambienti Kubernetes e fornitori di servizi cloud.
NVIDIA NIM offre un throughput e una latenza ottimizzati pronti all'uso per massimizzare la generazione di token, supportare più utenti simultaneamente nelle ore con maggiore traffico e migliorare la reattività. I microservizi NIM sono continuamente aggiornati con i più recenti motori di inferenza ottimizzati, che aumentano le prestazioni sulla stessa infrastruttura nel tempo.
Configurazione: Llama 3.1 8B instruct, 1 H100 SXM; richieste simultanee: 200. NIM ON: FP8, throughput 1201 token/s, ITL 32ms. NIM OFF: FP8, throughput 613 token/sec, ITL 37 ms.
Ottieni prestazioni di inferenza ottimizzate per i modelli IA più recenti per alimentare l'IA per agenti multimodali con ragionamento, linguaggio, recupero, voce, immagini e altro ancora. NIM è dotato di motori di inferenza accelerati da NVIDIA e della community, tra cui NVIDIA® TensorRT™, TensorRT-LLM e molto altro ancora, pre-costruiti e ottimizzati per l'inferenza a bassa latenza e ad alto throughput sull'infrastruttura accelerata da NVIDIA.
Progettati per essere eseguiti ovunque, i microservizi di inferenza NIM espongono le API standard di settore per una facile integrazione con i sistemi e le applicazioni aziendali e scalano facilmente su Kubernetes per fornire un'inferenza ad alto throughput e a bassa latenza su scala cloud.
Distribuisci NIM per il tuo modello con un unico comando. Inoltre, è possibile eseguire facilmente NIM con modelli ottimizzati.
Inizia a usare la tecnologia NIM con il motore di esecuzione ideale basato sulla tua infrastruttura accelerata da NVIDIA.
Gli sviluppatori possono integrare gli endpoint NIM self-hosted con poche righe di codice.
Scopri come NVIDIA NIM supporta i casi d'uso del settore e l'avvio dello sviluppo dell'IA con esempi selezionati.
Migliora le esperienze dei clienti e rendi più efficienti i processi aziendali grazie all'IA generativa.
Usa l'IA generativa per accelerare e automatizzare l'elaborazione dei documenti.
Fornisci esperienze su misura che migliorano la soddisfazione dei clienti con la potenza dell'IA.
Usa OpenUSD e l'IA generativa per sviluppare e distribuire strumenti ed esperienze di configurazione di prodotto 3D su quasi tutti i dispositivi.