
DeepSeek a dévoilé aujourd’hui DeepSeek-OCR 2, une itération qui revoit en profondeur l’encodage visuel pour la lecture de documents complexes. Le cœur de l’évolution tient à « DeepEncoder V2 », un nouveau bloc qui réordonne dynamiquement les informations visuelles selon la sémantique avant la reconnaissance, en s’éloignant du simple parcours en grille de gauche à droite et de haut en bas.

Nouvelle chaîne de traitement : encodage sémantique, réordonnancement, décodage MoE
Le modèle introduit un « flux causal visuel » avec des tokens de requête apprenants au sein de DeepEncoder V2. Concrètement, l’encodeur combine attention bidirectionnelle pour la perception globale et attention causale pour établir une séquence sémantique, puis ne transmet au décodeur que les tokens réordonnés. Le module remplace la brique CLIP d’origine par une structure de type langage, tout en conservant l’architecture encodeur–décodeur de la génération précédente.

DeepSeek maintient la contrainte de ressources en limitant les tokens visuels par page entre 256 et 1120, comparable aux systèmes antérieurs. Le décodage s’appuie sur un modèle de langage à architecture Mixture of Experts, qui reçoit uniquement les représentations compactées et déjà ordonnées.
Benchmarks et stabilité en production
Sur OmniDocBench v1.5, qui couvre des documents en chinois et en anglais (articles académiques, magazines, rapports), DeepSeek-OCR 2 atteint 91,09 %, soit +3,73 % par rapport à DeepSeek-OCR, avec un plafond de tokens plus bas. La précision du « reading order » progresse sensiblement : l’édition distance moyenne passe de 0,085 à 0,057, signe d’une meilleure compréhension de la structure logique.
En production, les journaux d’utilisation indiquent une réduction de la répétition d’images en ligne de 6,25 % à 4,17 %. Sur des lots PDF, la répétition baisse de 3,69 % à 2,88 %. Ces gains de stabilité accompagnent le maintien d’un taux de compression élevé, un point crucial pour le coût d’inférence.

En s’alignant davantage sur les heuristiques humaines de lecture et en déplaçant l’effort vers un encodage sémantique ordonné, DeepSeek fixe un jalon pertinent pour l’OCR des documents à mise en page dense. Le choix d’un MoE côté langage et d’un plafond strict de tokens suggère une optimisation assumée du débit et du TCO, avec un potentiel direct pour les pipelines d’extraction en entreprise et l’archivage massif où la stabilité et le respect de l’ordre de lecture priment autant que le score brut.
Source : ITHome



