Au Computex 2026, entre annonces de cartes graphiques et démonstrations spectaculaires, Nvidia a livré un message stratégique clair : la bataille de l’intelligence artificielle ne se joue plus seulement sur la puce, mais au cœur des data centers. Jensen Huang n’a pas présenté un produit isolé, il a décrit une architecture complète où chaque composant — du rack au logiciel — est pensé pour maximiser la production de « tokens » par watt. Autrement dit, l’enjeu économique est désormais la performance énergétique et l’efficience globale, pas seulement le prix d’une carte.
Vera Rubin : plus qu’un GPU, un système prêt pour l’ère des agents
Vera Rubin n’est pas une simple carte graphique ; c’est un système à l’échelle rack conçu pour le calcul agentique à très grande échelle. Avec une configuration NVLink 72 et une intégration matérielle poussée (mémoire HBM4, bus PCB central sans câbles ni ventilo), Nvidia propose une solution qui réduit dramatiquement le temps d’assemblage et simplifie la logistique. L’approche est industrialisée : assemblage rapide, chaîne de production distribuée et partenaires locaux impliqués à grande échelle. L’idée est de traiter le data center comme un produit industriel, livré clé en main, optimisé pour créer un maximum de valeur économique par kilowatt consommé.
Grok LPX et la logique duo : throughput et latence
Aux côtés de Vera Rubin, Nvidia a présenté Grok LPX, un système orienté très basse latence composé de dizaines de processeurs LPU. La stratégie est claire : ne pas opposer, mais combiner. Vera Rubin maximise le throughput (la capacité à générer beaucoup de tokens), tandis que Grok LPX gère les tâches sensibles à la latence. Cette architecture duale, comparable à un système audio « volume versus précision », permet de répondre aux besoins des agents AI modernes, qui exigent à la fois débit et réactivité pour des chaînes d’inférence complexes.
Vera CPU : une CPU pensée pour les agents
Nvidia ne se limite pas aux GPU. La nouvelle Vera CPU vise à réduire la latence structurelle des traitements agentiques. Contrairement aux CPU traditionnelles, pensées pour des charges humaines mesurées en secondes, Vera CPU optimise chaque élément pour des cycles en nanosecondes : prédicteur neuronal de branche, décodage multi‑voies, large bande mémoire via LPDDR5X. Les benchmarks présentés indiquent des sauts générationnels sur des tâches serveur critiques, avec des performances multipliées pour des cas d’usage comme le stream processing.
DSX : l’infrastructure comme service et produit
DSX (Data Center Experience) formalise l’idée que concevoir et exploiter une « AI factory » nécessite des outils intégrés : simulation (DSX Sim) via Omniverse, OS de provisioning (DSX OS), optimisation dynamique de puissance (DSX Max LPS) et intégration à la grille électrique (DSX Flex). L’objectif est double : maximiser l’efficacité énergétique et transformer les data centers en actifs flexibles capables de dialoguer avec le réseau. Nvidia propose ainsi une suite complète pour réduire les risques d’investissement et augmenter le rendement des centres d’inférence à grande échelle.
Nemotron 3 Ultra et l’ouverture : la stratégie du modèle « open »
Sur le plan logiciel, Nvidia mise sur l’ouverture avec Nemotron 3 Ultra, modèle linguistique distribué avec données de training et scripts disponibles. Cette posture est conçue pour séduire les entreprises qui souhaitent personnaliser des agents verticaux sans repartir de zéro. En rendant des composants critiques open source, Nvidia accélère l’adoption de sa pile matérielle tout en créant un écosystème où partenaires et clients construisent leurs propres solutions spécialisées. C’est une stratégie de plateforme : fournir le socle matériel et logiciel, laisser les acteurs verticaux créer la valeur spécifique.
Cosmos 3 et l’AI physique : entraîner des robots sans les casser
Cosmos 3 se positionne comme le moteur d’entrainement pour la robotique : génération vidéo synthétique physiquement fidèle, simulation en boucle fermée et capacité à répliquer des scénarios réels pour entraîner des policies. Cela répond à un besoin fondamental : la robotique exige des données « first‑person » pour fonctionner correctement, or la plupart du contenu accessible est en « third‑person ». Cosmos 3 promet de combler ce fossé et d’accélérer le déploiement de systèmes robotiques entraînés à l’échelle.
Token par watt : la nouvelle métrique économique
La notion de « token per watt » résume l’approche économique d’ensemble. Nvidia positionne le token comme unité atomique de sortie des modèles langage/agent, et propose de mesurer la rentabilité d’une infrastructure par le nombre de tokens générés par unité d’énergie consommée. Ce changement de métrique modifie la logique d’achat : il ne s’agit plus d’acheter la puce la moins chère, mais la solution la plus rentable sur la durée — celle qui produit le plus de valeur par kilowatt.
Les implications pour l’industrie et les acteurs cloud
En pratique, cela signifie que la compétition ne se joue plus seulement sur la densité de transistors, mais sur l’intégration, l’optimisation énergétique et la capacité à transformer cette puissance en revenus mesurables.
Ce que cela change pour nous
Pour les entreprises, la question est désormais : investir dans des GPU isolés suffit‑il ou faut‑il concevoir une architecture complète optimisée pour les agents ? Pour les décideurs, le critère d’achat va évoluer vers la métrique économique proposée par Nvidia. Et pour le marché, l’enjeu est de taille : la standardisation des outils et la disponibilité de architectures clé en main pourraient accélérer l’adoption massive d’agents AI dans de nombreux secteurs, du design de puces à la finance en temps réel.
Au Computex, Nvidia n’a pas juste lancé des produits ; elle a présenté une vision où la maîtrise de la chaîne complète — du chip au rack, du logiciel à la gestion énergétique — devient l’avantage compétitif ultime. La partie se joue maintenant dans les data centers, là où se transforme le kilowatt en tokens, et les tokens en valeur économique.

