DeepSeek-OCR 2 réordonne la mise en page: +3,7 pts et MoE sous plafond de tokens

DeepSeek a dévoilé aujourd’hui DeepSeek-OCR 2, une itération qui revoit en profondeur l’encodage visuel pour la lecture de documents complexes. Le cœur de l’évolution tient à « DeepEncoder V2 », un nouveau bloc qui réordonne dynamiquement les informations visuelles selon la sémantique avant la reconnaissance, en s’éloignant du simple parcours en grille de gauche à droite et de haut en bas.

Tableau des performances des modèles sur OmniDocBench v1.5, incluant DeepSeek-OCR 2.

Nouvelle chaîne de traitement : encodage sémantique, réordonnancement, décodage MoE

Le modèle introduit un « flux causal visuel » avec des tokens de requête apprenants au sein de DeepEncoder V2. Concrètement, l’encodeur combine attention bidirectionnelle pour la perception globale et attention causale pour établir une séquence sémantique, puis ne transmet au décodeur que les tokens réordonnés. Le module remplace la brique CLIP d’origine par une structure de type langage, tout en conservant l’architecture encodeur–décodeur de la génération précédente.

Distances d'édition pour les catégories d'éléments dans OmniDocBench v1.5, incluant DeepSeek-OCR 2.

DeepSeek maintient la contrainte de ressources en limitant les tokens visuels par page entre 256 et 1120, comparable aux systèmes antérieurs. Le décodage s’appuie sur un modèle de langage à architecture Mixture of Experts, qui reçoit uniquement les représentations compactées et déjà ordonnées.

Benchmarks et stabilité en production

Sur OmniDocBench v1.5, qui couvre des documents en chinois et en anglais (articles académiques, magazines, rapports), DeepSeek-OCR 2 atteint 91,09 %, soit +3,73 % par rapport à DeepSeek-OCR, avec un plafond de tokens plus bas. La précision du « reading order » progresse sensiblement : l’édition distance moyenne passe de 0,085 à 0,057, signe d’une meilleure compréhension de la structure logique.

En production, les journaux d’utilisation indiquent une réduction de la répétition d’images en ligne de 6,25 % à 4,17 %. Sur des lots PDF, la répétition baisse de 3,69 % à 2,88 %. Ces gains de stabilité accompagnent le maintien d’un taux de compression élevé, un point crucial pour le coût d’inférence.

Comparaison détaillée entre DeepSeek-OCR et DeepSeek-OCR 2 sur différents types de documents.

En s’alignant davantage sur les heuristiques humaines de lecture et en déplaçant l’effort vers un encodage sémantique ordonné, DeepSeek fixe un jalon pertinent pour l’OCR des documents à mise en page dense. Le choix d’un MoE côté langage et d’un plafond strict de tokens suggère une optimisation assumée du débit et du TCO, avec un potentiel direct pour les pipelines d’extraction en entreprise et l’archivage massif où la stabilité et le respect de l’ordre de lecture priment autant que le score brut.

Source : ITHome

Wael.K

Ravi de vous accueillir sur ma page dédiée aux articles ! Je suis Wael El Kadri, et je suis un ingénieur civil de profession. Mais ma véritable passion est le matériel informatique. J'en suis passionné depuis l'âge de 12 ans, et j'aime apprendre et découvrir de nouvelles choses. En 2016, j'ai créé ma page personnelle sur les réseaux sociaux, baptisée Pause Hardware. C'est là que je partage mes créations en modding, mais aussi divers sujets liés au matériel informatique en général. J'ai également crée le site web, pausehardware.com, en 2019 où je publie des articles plus approfondis sur le matériel à travers des tests et revues et articles de news. J'ai eu l'opportunité de participer en tant qu'exposant à plusieurs événements liés aux jeux vidéo, aux côtés de grandes marques, notamment lors de la Paris Game Week en 2018 et 2019. Je reste constamment en quête de nouvelles manières de partager mes connaissances et ma passion pour le matériel informatique avec d'autres passionnés. Voici quelques publications médiatiques qui ont mis en lumière mon travail : Deux articles dans le magazine Extreme PC, parus dans ses  numéros 1 et 21 : Extreme PC Magazine Issue 21 (adobe.com) Également, un article sur Forbes intitulé "Dix Modèles de PC Incroyables en 2021" sur forbes.com : Ten Incredible PC Mods Of 2021 (forbes.com)

Articles similaires

guest
0 Commentaires
Le plus ancien
Le plus récent Le plus populaire
Commentaires en ligne
Afficher tous les commentaires
Bouton retour en haut de la page
0
Nous aimerions avoir votre avis, veuillez laisser un commentaire.x