
OpenClaw intègre désormais DeepSeek V4 et bascule son modèle par défaut sur la variante V4 Flash. La version 2026.4.24 ajoute aussi V4 Pro au catalogue, tout en corrigeant des points bloquants dans les appels d’outils multi-tours et en élargissant l’Agent à la voix et aux réunions Google Meet.
DeepSeek V4 par défaut, double pile Flash/Pro
DeepSeek V4 Pro affiche 1,6 billion de paramètres totaux avec 49B d’unités activées en MoE, et V4 Flash 284B pour 13B activés, également en MoE. Les deux modèles offrent un contexte de 1 million de tokens et une licence MIT. OpenClaw positionne Flash en modèle par défaut pour des raisons de latence et de coût, tout en annonçant des performances de raisonnement en mode Max proches de Pro.

La mise à jour comble un manque autour du reasoning_content lors d’appels d’outils consécutifs et de changements de modèle, qui déclenchait des erreurs de « replay provider ». La logique de placeholders a été normalisée, stabilisant DeepSeek V4 dans les longues chaînes d’actions.

Google Meet et voix en temps réel, Agent en premier plan
Google Meet devient un plugin participant intégré. Le système gère l’autorisation via comptes Google, l’entrée par URL explicite, la transmission temps réel via Chrome et Twilio, et le mode paired-node Chrome pour des piles locales de type Parallels/BlackHole/SoX. Au-delà de l’entrée en réunion, OpenClaw traite l’enregistrement, la transcription, la prise de notes intelligentes et l’export Markdown, avec recherche sur les historiques de conférences.
Talk, Voice Call et Meet accèdent au cycle voix en temps réel branché sur l’Agent complet. Via openclaw_agent_consult, une question en appel ou en réunion déclenche outils, contexte et réponse vocale. Le plugin Voice Call gagne une commande smoke en dry-run pour vérifier Twilio et consorts avant numérotation. Côté Google, Gemini Live active la voix bidirectionnelle et les appels de fonctions, tandis que Gateway/VoiceClaw expose un endpoint WebSocket « realtime brain » sous contrôle owner-auth.
Automatisation navigateur, démarrage allégé, rupture SDK
L’automatisation du navigateur ajoute les clics par coordonnées (viewport), en modes gérés et sessions existantes, avec une commande CLI dédiée. L’allocation par défaut des actions passe à 60 s, les profils acceptent le headless à la carte. Sur Meet, l’Agent réutilise les onglets déjà ouverts, tente des récupérations après timeouts et gère les blocages d’UI usuels comme connexion, autorisations et sélection micro.
Le catalogue de modèles migre vers un répertoire statique avec rangées issues de manifest, ce qui décorrèle indexation et cache du chargement runtime. Côté plugins, davantage de métadonnées (modelCatalog, channelConfigs, setup.providers) passent par manifest pour éviter de charger l’ensemble des runtimes au démarrage, utile avec la multiplication des capacités modulaires (Google Meet, Voice Call, PDF, Anthropic Vertex, Bonjour, etc.).
Changement cassant : la voie Pi-only api.registerEmbeddedExtensionFactory(…) est retirée. Les réécritures de résultats d’outils doivent migrer vers api.registerAgentToolResultMiddleware(…) avec déclaration contracts.agentToolResultMiddleware. Un registre de compatibilité et de migration accompagne ce nettoyage d’API, visant l’alignement entre Pi et les outils dynamiques côté serveur Codex.

La trajectoire est nette : OpenClaw s’éloigne d’un simple chat pour devenir un moteur d’orchestration. Le choix de DeepSeek V4 en défaut répond à la pression capacité/coût, tandis que la voix et Meet installent l’Agent au cœur des flux synchrones. Les itérations sur le navigateur et le chargement paresseux des plugins traitent les vrais points de rupture opérationnels : reprise, quotas de temps, permissions, isolation runtime. À court terme, les intégrateurs y gagnent en stabilité sur des workflows longs, mais devront absorber la rupture SDK pour rester sur la bonne voie.
Source : ITHome