
Nvidia présente PiD, pour Pixel Diffusion Decoder, une méthode de décodage latent qui vise le haut débit en haute définition. Sur une carte graphique grand public RTX 5090, PiD décode un latent 512×512 et le suréchantillonne directement en 2048×2048 en moins d’une seconde, avec un pic à 13 Go de mémoire. Sur un GPU GB200, l’inférence descend à 210 ms.
Décodage conditionnel et suréchantillonnage en un seul bloc
La plupart des pipelines texte‑vers‑image génèrent dans l’espace latent puis délèguent à un décodeur la reconstruction en image pleine résolution. Ce schéma est efficace, mais les décodeurs classiques excellent surtout à « rétablir » le signal encodé et peinent à enrichir la texture et les micro‑détails à l’échelle du mégapixel, avec des limites nettes en qualité et en latence.

PiD redéfinit ce décodage en le formulant comme une diffusion conditionnelle en pixels, et fusionne décodage et upscaling au sein d’un générateur unique. Concrètement, le module comble textures, structures et détails locaux au moment même de la sortie, au lieu de s’en remettre à une chaîne de surcouches.
Cette approche rappelle les travaux récents qui déplacent une partie du gain visuel au niveau même des données, comme avec la compression neuronale de textures pensée pour alléger les assets tout en préservant les détails perçus à l’écran. Dans les deux cas, l’enjeu est de faire mieux avec moins de passes et moins de mémoire, sans sacrifier la qualité finale.

Architecture, compatibilité et perfs
Le modèle s’appuie sur PixelDiT, assorti d’un adaptateur léger de type ControlNet. Celui‑ci injecte le latent bruité et module dynamiquement la confiance accordée à ce signal via un mécanisme de gating lié à sigma. Pour tasser la latence, Nvidia applique une distillation DMD2 qui réduit l’inférence à 4 pas, avec early stop pour tenir l’équilibre vitesse/fidélité.
Au‑delà des VAE, PiD accepte aussi des latents sémantiques issus des approches RAE récentes, notamment SigLIP et DINOv2. Sur les jeux de tests publiés, la solution décode et upscale en 2048×2048 en une passe, tout en affichant une latence bout‑en‑bout jusqu’à 5,9× inférieure aux chaînes de diffusion en cascade pour la super‑résolution, avec une meilleure fidélité visuelle.
La consolidation du décodage et de l’upscaling dans un bloc de diffusion pixel conditionnel, combinée à une distillation agressive, confirme la stratégie de Nvidia: couper les coûts d’inférence haute définition sur carte unique tout en gardant de la marge sur serveurs. Si l’adoption suit côté VAE/RAE tiers, PiD pourrait s’imposer comme maillon standard des pipelines génératifs 2K et plus, y compris pour les usages interactifs sur PC équipés d’une seule carte graphique.
Source : ITHome