
Alibaba Qwen dévoile Qwen-Image-2.0, une nouvelle génération de modèle de génération d’images qui fusionne texte‑to‑image et édition d’images dans un unique système. La promesse : un rendu typographique nettement plus professionnel, une meilleure fidélité photoréaliste en 2K, une compréhension sémantique accrue pour suivre les consignes complexes, et une architecture plus compacte pour des temps d’inférence plus courts. L’API est ouverte en accès anticipé sur Alibaba Cloud Baichuan, et le modèle est testable gratuitement via Qwen Chat.

Texte net, composition maîtrisée, 2K natif
Le point saillant est la « lecture/écriture » du texte dans l’image. Qwen-Image-2.0 accepte jusqu’à 1 000 tokens d’instructions et sort des infographies, affiches, planches de BD ou slides avec une mise en page alignée, hiérarchisée et multi‑scripts, sans approximations de glyphes ni artefacts de vectorisation. L’équipe montre des cas de figures saturés en texte (infographies A/B test, calendriers lunaires, calligraphies classiques, inscriptions sur t‑shirts, vitrines, magazines) avec respect des polices, de l’empattement, de l’orientation et de l’intégration matière/lumière.
Sur le réalisme, le modèle passe en génération 2 048 × 2 048, avec un soin particulier aux textures micro‑détails (peau, tissages, pierre, feuillage) et aux interactions optiques crédibles (réflexions sur verre, profondeur de champ, brouillard atmosphérique). Les visuels fournis illustrent une gestion propre des scènes denses, y compris les rendus « image dans l’image » et les superpositions texte‑image sans obstruction du sujet.

Génération + édition unifiées, consignes longues, architecture allégée
Qwen-Image-2.0 unifie la compréhension et la génération pour la création et l’édition dans le même flux, ce qui évite les bascules de pipeline. Le modèle suit plus strictement les prompts longs, y compris les contraintes de cadrage, d’alignement typographique, de styles calligraphiques précis ou de cohérence multi‑vues. Les exemples incluent le titrage directement sur photos, les montages multi‑images cohérents, et l’incrustation contrôlée d’éléments 2D stylisés sur une base photographique réelle, sans casser la vraisemblance lumineuse.
Alibaba met aussi en avant une architecture plus légère et une latence réduite pour produire des images 2K « en quelques secondes ». Sans fiche technique publique détaillée, la communication insiste sur l’équilibre entre fidélité visuelle et vitesse d’inférence dans une enveloppe modèle plus petite que la génération précédente.

Pour l’écosystème, l’intégration propre du texte au sein des pipelines de génération marque une inflexion utile pour les cas pro encore mal servis par les diffuseurs classiques : infographie dense, poster avec crédits longs, maquettes de slides, interfaces annotées ou signalétique sur matériaux. Si la qualité réelle dépendra des jeux de prompts et de l’outil d’édition en amont, la convergence « photoréalisme + typographie fiable » dans un seul modèle est précisément la case que cherchaient à cocher les studios créa et les équipes produit.
Source : ITHome