DeepSeek-OCR 2: Gains +3,7 Pts Avec MoE Et Tokens Limités

Schéma du DeepEncoder et DeepEncoder V2 avec tokeniseur et encodage de vision LM.

DeepSeek a dévoilé aujourd’hui DeepSeek-OCR 2, une itération qui revoit en profondeur l’encodage visuel pour la lecture de documents complexes. Le cœur de l’évolution tient à « DeepEncoder V2 », un nouveau bloc qui réordonne dynamiquement les informations visuelles selon la sémantique avant la reconnaissance, en s’éloignant du simple parcours en grille de gauche à droite et de haut en bas.

Tableau des performances des modèles sur OmniDocBench v1.5, incluant DeepSeek-OCR 2.

Nouvelle chaîne de traitement : encodage sémantique, réordonnancement, décodage MoE

Le modèle introduit un « flux causal visuel » avec des tokens de requête apprenants au sein de DeepEncoder V2. Concrètement, l’encodeur combine attention bidirectionnelle pour la perception globale et attention causale pour établir une séquence sémantique, puis ne transmet au décodeur que les tokens réordonnés. Le module remplace la brique CLIP d’origine par une structure de type langage, tout en conservant l’architecture encodeur–décodeur de la génération précédente.

Distances d'édition pour les catégories d'éléments dans OmniDocBench v1.5, incluant DeepSeek-OCR 2.

DeepSeek maintient la contrainte de ressources en limitant les tokens visuels par page entre 256 et 1120, comparable aux systèmes antérieurs. Le décodage s’appuie sur un modèle de langage à architecture Mixture of Experts, qui reçoit uniquement les représentations compactées et déjà ordonnées.

Benchmarks et stabilité en production

Sur OmniDocBench v1.5, qui couvre des documents en chinois et en anglais (articles académiques, magazines, rapports), DeepSeek-OCR 2 atteint 91,09 %, soit +3,73 % par rapport à DeepSeek-OCR, avec un plafond de tokens plus bas. La précision du « reading order » progresse sensiblement : l’édition distance moyenne passe de 0,085 à 0,057, signe d’une meilleure compréhension de la structure logique.

En production, les journaux d’utilisation indiquent une réduction de la répétition d’images en ligne de 6,25 % à 4,17 %. Sur des lots PDF, la répétition baisse de 3,69 % à 2,88 %. Ces gains de stabilité accompagnent le maintien d’un taux de compression élevé, un point crucial pour le coût d’inférence.

Comparaison détaillée entre DeepSeek-OCR et DeepSeek-OCR 2 sur différents types de documents.

En s’alignant davantage sur les heuristiques humaines de lecture et en déplaçant l’effort vers un encodage sémantique ordonné, DeepSeek fixe un jalon pertinent pour l’OCR des documents à mise en page dense. Le choix d’un MoE côté langage et d’un plafond strict de tokens suggère une optimisation assumée du débit et du TCO, avec un potentiel direct pour les pipelines d’extraction en entreprise et l’archivage massif où la stabilité et le respect de l’ordre de lecture priment autant que le score brut.

Source : ITHome

Wael.K27 janvier 2026Dernière mise à jour: 27 janvier 2026

2 minutes de lecture