Hermes Agent · Coût des modèles, DeepSeek et subagents IA

01 / 05 — RETOUR D’EXPÉRIENCE

Lire cette page correctement

Disclaimer — à lire avant le rapport

Je partage cette page comme retour d’expérience personnel sur un test d’outillage agentique. L’objectif initial n’était pas de publier une recommandation officielle sur les frameworks d’agents IA, mais de tester Hermes Agent, DeepSeek, les subagents, la délégation de tâches et la robustesse d’un workflow multi-agents.

L’analyse comparative, le classement, les corrections et les formulations techniques ci-dessous ne sont pas mon avis personnel. Ce sont des productions de LLMs, générées dans un cadre expérimental, puis annotées et mises en forme. Elles peuvent contenir des erreurs, des approximations, des oublis, des biais de sources ou des informations devenues obsolètes.

Cette page ne constitue donc ni une recommandation d’architecture, ni un avis sécurité, juridique, conformité, achats ou RSSI. Toute décision en contexte bancaire ou réglementé doit être reprise depuis les sources officielles, validée par les équipes compétentes et replacée dans le contexte réel de l’organisation concernée.

Démarche réelle du test

Cette page doit être lue comme un journal d’expérimentation : le sujet des frameworks d’agents IA sert de terrain d’essai pour comparer le comportement de modèles et de sous-agents, pas comme une étude définitive du marché.

1 · Point de départ : le coût. Je voulais tester Hermes Agent et ses subagents sans brûler trop de crédits. Sonnet est très performant, mais trop cher pour une journée d’essais-erreurs, de relances, de prompts ratés et d’itérations. J’ai donc choisi DeepSeek comme modèle initial : moins coûteux, intéressant en conversation, et a priori adapté à un test exploratoire.

2 · Cas d’usage choisi. La comparaison de frameworks d’agents IA — LangGraph, Strands, OpenAI Agents SDK, Claude Agent SDK — a été utilisée comme cas d’étude parce qu’elle est pertinente pour mon métier d’architecte Data & IA, mais le but premier restait le test de la mécanique agentique.

3 · Résultat inattendu. DeepSeek s’est montré intéressant en conversation, mais moins robuste sur cette orchestration de subagents : timeouts, adhérence imparfaite aux consignes, erreurs de parcours de sources. Le test a conduit à essayer Claude Haiku pour les subagents.

4 · Résultat final. Le rapport final est donc à la fois un comparatif de frameworks et un enseignement sur le choix du modèle : prendre le modèle le moins cher n’est pas toujours le choix le moins coûteux si les timeouts, les erreurs de parcours et les relances se multiplient. Sur ce test, DeepSeek a permis d’expérimenter à bas coût, mais Haiku s’est montré plus fiable pour l’orchestration de subagents. Sonnet reste volontairement hors du cœur du test, principalement pour des raisons de coût.

Important Le contenu analytique ci-dessous est donc à lire comme une sortie de LLM documentée, pas comme une position personnelle ou professionnelle de ma part.

Légende — annotations post-correction

Document généré par Hermes Agent dans le cadre d’un test de subagents, puis relu par un second LLM. Les corrections proposées par le second LLM sont intégrées directement dans les cellules et paragraphes avec un marquage vert.

Vert — Correction factuelle Sonnet (intégrée inline)

Violet — Débat (lecture alternative, opinion de Sonnet — non factuel)

Ambre — Verdict original Haiku et post-mortem du processus

Méthodologie initiale : 4 subagents parallèles ont analysé chacun 3 URLs imposées par framework. Aucune recherche exploratoire ; données strictement des sources documentaires officielles. Rapport généré en mai 2026, à considérer comme un instantané expérimental.

02 / 05 — RETOUR D’EXPÉRIENCE

Tableau Comparatif

Framework	Licence	Self-Hosted	Multi-LLM	MCP Natif	Durable Exec.	Tracing	UE Régions	Use Bancaire
LangGraph	MIT	Managed Oui	Non Oui	Adaptateur	Oui	LangSmith	Non doc.	Non doc. J.P. Morgan
Strands	Apache 2.0	Oui	Oui	Natif	Oui	OpenTel.	Possible	Non spécif. Swisscom
OpenAI	Non doc. MIT	Local	Oui	Natif	Non doc.	Natif	Non doc.	Non doc.
Claude	MIT MIT (SDK) + ToS Anthropic (modèle)	Partial	Partial Non (lock-in modèle)	Natif	Oui	Hooks	EU Bedrock	Production Production (legal/dev, pas banque)

Notes sur les corrections du tableau :

LangGraph Self-Hosted : pip install langgraph tourne en self-hosted total. LangSmith managé est optionnel pour l'observabilité.
LangGraph Multi-LLM : provider-agnostic depuis l'origine via les langchain-* integrations (OpenAI, Anthropic, Google, Bedrock, Ollama, vLLM, Mistral, etc.).
LangGraph Use Bancaire : J.P. Morgan est cité comme adopter dans la documentation LangChain, c'est l'unique cas banking documenté des 4 frameworks.
Strands Use Bancaire : Swisscom (telco régulé européen) cité dans le blog AWS d'annonce 1.0, plus parlant pour le contexte que "non spécifié".
OpenAI Licence : le repo openai/openai-agents-python est sous MIT, visible dans le LICENSE du repo. Haiku n'avait simplement pas extrait ce fichier.
Claude Licence : MIT sur le code du SDK, mais l'usage du modèle Claude est régi par les Anthropic Commercial Terms of Service. Distinction importante pour la conformité.
Claude Multi-LLM : "Partial" est trompeur. Bedrock/Vertex/Foundry sont des backends d'infra (où Claude tourne), pas des alternatives au modèle. C'est un lock-in modèle complet.
Claude Use Bancaire : CoCounsel = litigation/legal, GitHub Copilot = dev tools. Aucun adopter banque documenté.

VERDICT INITIAL DU LLM — PAS UNE RECOMMANDATION PERSONNELLE

Classement 1-4 produit par le LLM à partir des sources fournies. Il est conservé pour transparence, mais ne constitue pas mon avis personnel ni une recommandation d’architecture.

1. Claude Agent SDK (Anthropic) — Production bancaire proven

✓ MIT license (claire). ✓ Hooks audit complets (PreToolUse/PostToolUse). ✓ SandboxAgents isolés. ✓ Modèle frontier aligné (ASL-3 safety). ✓ Adopters enterprise: CoCounsel (litigation legal), Cursor, GitHub. ✓ Déploiement souverain via Bedrock EU (Ireland/Frankfurt). Durable execution & Memory tool. Risque mitigé : Dépendance modèle Anthropic, pas abstraction LLM layer (vs Strands).

2. Strands Agents (AWS) — Meilleur équilibre multi-LLM + observabilité

✓ Apache 2.0 (permissif). ✓ Vrai multi-provider swap (Bedrock → OpenAI → Anthropic → Ollama sans code). ✓ OpenTelemetry natif. ✓ Déploiement K8s/EKS/Fargate EU possible. ✓ Communauté 150K+ PyPI downloads. ✓ A2A protocol (interop agents). ✓ Durable execution. Risque : Pas guidance bancaire spécifique. Version 1.0 mai 2026 (récente).

3. LangGraph (LangChain) — Fondamentaux solides, lock-in managé

✓ MIT license. ✓ Architecture bas-niveau robuste (Pregel-inspired). ✓ MCP via adaptateurs. ✓ Observabilité LangSmith. ✓ 31k GitHub stars (adoption). ✗ LangSmith Deployments crée dépendance managed. ✗ Pas guidance bancaire France/UE. ✗ Déploiement souverain complexe sans LangSmith.

4. OpenAI Agents SDK — Immature pour contexte strict

✗ Licence non documentée (risque compliance/CNIL). ✗ Durable execution absent des sources. ✗ Lock-in Responses API + WebSearch propriétaires. ✗ Zéro case study financier dans documentation officielle. ✗ Sandbox Unix local uniquement (pas déploiement cloud). Pas recommandé pour si bancaire.

03 / 05 — RETOUR D’EXPÉRIENCE

Architecture proposée par le LLM — à ne pas lire comme recommandation personnelle

▸ Choix 1 (optimal)
Claude Agent SDK + Amazon Bedrock EU (Ireland ou Frankfurt)
Données FR/UE, audit natif, modèle frontier (ASL-3), MIT license, production bancaire proven (CoCounsel).

▸ Choix 2 (autonomie maximale)
Strands Agents + Provider Ollama/vLLM self-hosted
Déploiement on-prem complet, Apache 2.0, multi-agent scaling proven, zéro dépendance cloud commercial.

▸ Éviter
OpenAI Agents SDK pour contexte bancaire strict.
Absence clauses CNIL/confidentialité dans SDK, durable execution non documentée, lock-in propriétaire, zéro use case financier.

Note de lecture

La section ci-dessus est une proposition générée par le LLM dans le cadre du test. Elle ne doit pas être interprétée comme une validation de ma part. En contexte bancaire réel, les critères déterminants seraient à redéfinir avec l’architecture, la sécurité, la conformité, les achats, le juridique et les contraintes d’hébergement de l’organisation.

Lecture alternative — Qu'est-ce que "souverain" veut dire pour ton SI bancaire ?

Cette section n'est pas une correction factuelle, c'est une lecture alternative proposée par Sonnet. Le terme "souveraineté" admet plusieurs définitions dans le contexte SI bancaire français, et le classement Haiku ci-dessus est défendable pour une de ces définitions. À toi de juger laquelle correspond à ton contexte projet.

Trois définitions courantes de "souveraineté" en banque française

Définition A — Résidence des données UE (la plus large)
Critère : les données ne quittent pas le territoire de l'UE. Bedrock EU coche cette case. RGPD respecté. Sous cette définition, le classement Haiku tient : Claude SDK + Bedrock EU est un excellent choix.

Définition B — Indépendance du Cloud Act (intermédiaire)
Critère : pas soumis à une juridiction extra-européenne (Cloud Act US, Patriot Act). Bedrock reste un service AWS, donc société américaine, donc soumis au Cloud Act indépendamment de la région. Sous cette définition, le classement bascule : Strands sur infra OVHcloud/Scaleway/3DS Outscale (qualifiés SecNumCloud) devient préférable. LangGraph self-hosted aussi.

Définition C — Air-gap / qualification ANSSI SecNumCloud (la plus stricte)
Critère : déploiement sur infrastructure qualifiée SecNumCloud, modèle hébergé en interne ou chez un opérateur souverain qualifié, audit possible du modèle, zéro appel sortant. Aucun des 4 frameworks ne coche entièrement, mais Strands + Mistral/Llama via vLLM/Ollama on-prem (ou chez OVHcloud SecNumCloud) est le seul setup viable. Le Claude SDK est exclu (modèle non hébergeable en air-gap).

Quelle définition pour ton contexte ?

Ça dépend du type de traitement dans la banque :

— Outils internes non-sensibles (productivité dev, génération de doc technique, helpdesk RH non-PII) : Définition A suffit généralement. Le classement Haiku est valable.

— Traitements client / KYC / scoring : Définition B ou C selon les exigences DSI/RSSI. Cloud Act devient un sujet, et le ranking change.

— Traitements régaliens / LCB-FT / transactions : Définition C quasi-imposée. Sous cette grille, Strands self-hosted est le seul choix défendable.

Le rapport Haiku s'est implicitement positionné sur la Définition A. Si ton projet réel est sur les zones B ou C, le classement à utiliser est : 1. Strands self-hosted — 2. LangGraph self-hosted — 3. Claude SDK via Bedrock EU — 4. OpenAI.

04 / 05 — RETOUR D’EXPÉRIENCE

Fiches Détaillées par Framework

→ LangGraph (LangChain Inc)

Origine & Gouvernance

Open-source MIT. Développé par LangChain Inc. GitHub: langchain-ai/langgraph, 31k+ stars, 5.3k forks. Gouvernance communauté (274 issues, 247 PRs actifs). Adopters: Klarna, Replit, Elastic, J.P. Morgan.

Architecture Agent

Low-level framework inspiré Pregel/Beam/NetworkX. États persistants, graphes exécution explicites. Exécution durable avec reprise pannes. Mémoire hybride (court/long terme). Support MCP via langchain-mcp-adapters (stdio, HTTP, SSE).

Protocoles Standards

MCP (Anthropic) via adaptateurs. Conversion outils MCP → LangChain natifs. Schémas structurés. Non documenté : Normes bancaires (ISO 20022/SWIFT).

Sécurité & Observabilité

LangSmith: capture états, visualisation chemins, métriques runtime. Human-in-the-loop inspection d'état. Non documenté : Chiffrement E2E, auditing ANSSI/CNIL, gestion secrets production.

Provider Lock-in & Déploiement

Non documenté : Coûts managed, SLA, localité données, conformité bancaire FR/UE.

Précision Sonnet : LangGraph supporte tous les providers via langchain-* packages (OpenAI, Anthropic, Google, Bedrock, Vertex, Cohere, Mistral, Ollama, vLLM, Together, Groq, etc.). Déploiement totalement self-hosted possible (Docker, Kubernetes). LangSmith optionnel — observabilité remplaçable par OpenTelemetry standard. Avec Strands, l'un des deux frameworks où le déploiement air-gappé strict est viable.

Maturité Production

Production-ready avec durable execution. Outils évaluation agents. Ressources: docs complète, LangChain Academy, guides. Non documenté : Certifications SOC2/ISO27001, tests charge bancaire, MTTR/RPO, hotfix SLA.

Sources : github.com/langchain-ai/langgraph README, langchain-mcp-adapters README

→ Strands Agents (AWS Open Source)

Origine & Gouvernance

Apache 2.0 open-source. Créé AWS (mai 2025), version 1.0 (2026). GitHub: strands-agents/sdk-python, 6.4k stars. 22% contributions communauté. 150K+ PyPI downloads 14M+ téléchargements PyPI (blog AWS février 2026). Écosystème 12+ repos (sessions Redis/Valkey, tools tiers).

Adopters internes AWS à ajouter : Amazon Q Developer, AWS Glue, VPC Reachability Analyzer (usage interne validé avant open-sourcing). Adopters externes cités dans le blog AWS d'annonce 1.0 : Swisscom, Smartsheet, Landchecker, Elva.

Architecture Agent

Model-driven minimaliste. Boucle: perception → raisonnement → action. Primitives multi-agents: Agents-as-Tools (hiérarchie), Handoffs (humains), Swarms (équipes), Graphs (workflows). Streaming bidirectionnel expérimental (audio, interruption utilisateur).

Protocoles Standards

MCP natif (première classe). A2A protocol. Tools via décorateurs Python/TS, hot-reload auto. Multi-provider: Bedrock, OpenAI, Anthropic, Gemini, Ollama, LiteLLM, llama.cpp.

Sécurité & Observabilité

Hooks BeforeToolCallEvent (validation pré-exec), AfterToolCallEvent (audit post-exec). SteeringHandler (interception intelligente). OpenTelemetry natif. trace_attributes (tagging service/env). Benchmark: 100% accuracy vs 82.5% baseline. Chiffre à retirer ou contextualiser — extrait d'un sample sans cadre d'évaluation précisé.

Provider Lock-in & Déploiement

Zero lock-in: multi-provider abstraction (swap sans code). MCP native limit dépendance. Déploiement: AWS Lambda/Fargate/EKS, Kubernetes, Docker, Terraform. Portabilité cross-platform (Python+TypeScript).

Maturité Production

v1.0 "production-ready" 2026. Samples multiples (search/logs/lead-routing/support). Evals framework proven (117 stars). Infrastructure terraform/K8s production-tested. Non documenté : SLA uptime, support commercial, certifications SOC2/ISO.

Sources : github.com/strands-agents/sdk-python, strandsagents.com, AWS opensource blog (v1.0 announcement)

→ OpenAI Agents SDK

Origine & Gouvernance

Évolution Swarm (plateforme expérimentale). Open-source (v0.14.0+). Python + TypeScript/JavaScript. Non documenté : Licence exacte. Licence : MIT (fichier LICENSE racine du repo).

Architecture Agent

Primitives minimales: Agents (LLM + instructions + outils + handoffs), Agents Sandbox (long-term env), délégation A2A. Léger, sans abstraction excessive. Realtime Agents (gpt-realtime-2, voix native).

Protocoles Standards

Responses API (Chat Completions + tool-use unifiée). MCP natif. Outils: WebSearch, FileSearch, ComputerUse. WebSocket transport. Provider-agnostic déclaré: any-llm, LiteLLM 100+ LLMs.

Sécurité & Observabilité

Guardrails configurables (entrée/sortie). Human-in-the-Loop intégré. Tracing natif (visualisation/débogage/évaluation). Garantie: modèles ne trainés pas sur données métier par défaut. Non documenté : Chiffrement transit, compliance RGPD, audit logging.

Provider Lock-in & Déploiement

Provider-agnostic déclaré vs dépendance tacite Responses API + WebSearch + outils hébergés OpenAI. SandboxAgents déploiement local Unix. Installation pip standard. Non documenté : Cloud deployment (AWS/Azure/GCP), autoscaling, K8s, coûts.

Maturité Production

Maturité production avancée: open-source confirmé, docs complète, exemples diversifiés, outils dev robustes. Python 3.10+ + TypeScript parallèle. Non documenté : SLA, versioning roadmap, tests charge scale réelle, exemples bancaires France.

Sources : github.com/openai/openai-agents-python, openai.github.io/openai-agents-python, openai.com/index/new-tools-for-building-agents/

→ Claude Agent SDK (Anthropic)

Origine & Gouvernance

Licence : MIT (Copyright 2025 Anthropic, PBC). Licence : MIT sur le code Python/TS du SDK, MAIS l'usage du modèle Claude est régi par les Anthropic Commercial Terms of Service. Pas de pleine liberté MIT, c'est une licence MIT sur la coquille, propriétaire sur le moteur. Open-source. Sortie sept 2025 avec Claude Sonnet 4.5. v0.1.80 mai 2026. GitHub: anthropics/claude-agent-sdk-python, 6.8k stars, 972 forks, 64 contributeurs. Python + TypeScript. Adopters: Cursor, GitHub Copilot (Microsoft), CoCounsel, Hai, Cognition/Devin, Replit.

Architecture Agent

Deux APIs core: query() (async simple), ClaudeSDKClient (bidirect conversations). Asyncio complet. Hooks lifecycle (PreToolUse/PostToolUse/Stop/SessionStart/SessionEnd) interceptent chaque étape. Subagents avec tracage contexte (parent_tool_use_id). Memory tool natif pour tâches 30+ heures. Sessions backends: S3, Redis, PostgreSQL.

Protocoles Standards

MCP v1.0 natif. Modes: (1) In-process SDK (décorateurs Python @tool, latence minimal), (2) External subprocess (stdio, legacy). 10+ tools built-in: Read, Write, Edit, Bash, Monitor, Glob, Grep, WebSearch, WebFetch, AskUserQuestion. Système permissions granulaire (allowlist, permission_mode, can_use_tool callback).

Sécurité & Observabilité

Claude Sonnet 4.5 "frontier aligné": réductions 10x sycophancy/déception/power-seeking. Safety Level 3 (ASL-3): classifieurs CBRN automatisés (10x moins faux+, 2x vs Opus 4). Hooks pré/post-execution (audit complet, rejets déterministes). Logging auto modifications fichier. Zéro données utilisateur stockées Anthropic (session locale/backend client). Zéro training données utilisateur.

À distinguer : les features de safety (ASL-3, sycophancy reduction, etc.) sont du modèle Claude, pas du SDK. Le SDK fait l'orchestration et les hooks. La modération vient du modèle backend.

Provider Lock-in & Déploiement

Light lock-in strategic: dépendance modèle Anthropic (pas LLM abstraction layer). Lock-in modèle COMPLET : le SDK est conçu pour Claude uniquement. Bedrock/Vertex/Foundry sont des backends d'infra (où Claude tourne), pas des alternatives au modèle. Tiers-providers supportés: Amazon Bedrock, Google Vertex AI, Microsoft Azure Foundry (CLAUDE_CODE_USE_BEDROCK=1 etc). Déploiement: single Python process (pas microservices). Session backends pluggables. MIT license → transférable. Cost: Sonnet 4.5 pricing = Sonnet 4 ($3/$15M tokens).

Maturité Production

v0.1.80 mai 2026 (7-8 mois production réelle). Adoption confirmed: Cursor, GitHub Copilot, CoCounsel (litigation 44% vulns reduction), Hai, Devin, Replit (9%→0% error rate). GitHub: 6.8k stars, 972 forks, 64 contributors, 122 issues actifs. Benchmarks: SWE-bench Verified 77.2%, OSWorld 61.4%. Pas deprecation. Caveat : v0.x (semver immature), pas backward-compatibility guarantie majeure. Roadmap public absent.

v0.1.80 = semver pré-1.0. Signal d'instabilité d'API important pour contexte banking où les contrats de version comptent. À comparer : Strands en 1.0, LangGraph en stable.

Sources : github.com/anthropics/claude-agent-sdk-python, docs.claude.com/agent-sdk, anthropic.com/news/claude-sonnet-4-5

05 / 05 — RETOUR D’EXPÉRIENCE

Exécution & Méthodologie

4 subagents autonomes ont tourné en parallèle (configuration Hermes: max_concurrent_children=4). Chaque subagent a extrait ses 3 URLs imposées via web_extract, sans recherche exploratoire ni fabrication. Rapport parent compilé après convergence des 4 fiches. Durée totale: ~95 secondes (mai 2026). Modèle subagents: Claude Haiku 4.5. Aucun web_search utilisé. Toutes limites documentées comme « non documenté dans les sources ».

Bilan post-mortem — Ce que le test a vraiment montré

Ce rapport est l'aboutissement de plusieurs heures de tests itératifs sur Hermes Agent tournant sur un VPS personnel. La version finale a été générée rapidement et à faible coût, mais elle est surtout le fruit de plusieurs tentatives préalables, dont certaines infructueuses.

Le modèle initial : DeepSeek V4 Pro

Le setup Hermes initial utilisait deepseek/deepseek-v4-pro via OpenRouter, pour des raisons de coût (tarifs observés lors du test : 0,435 $/1M input, 0,87 $/1M output, soit 5,7× moins cher que Haiku en output). Excellent pour le chat interactif en français dense, mais inadapté pour orchestrer des subagents complexes.

Chronologie des tentatives

Tentative 1 — DeepSeek + delegate_task large (6 tours, 5 web_extract). Résultat : 3 subagents timeout à 600s exact. Hermes a pivoté tout seul vers execute_code. Coût : ~0,025 $ perdus.

Test minimaliste — DeepSeek + delegate_task atomique (4 tours, 2 web_extract). Résultat : succès en 3m53s pour 0,022 $. Parallélisme confirmé. Mais tâche réduite à de l'extraction de méta-données GitHub, pas de l'analyse.

Tentatives 2-3 — DeepSeek + bornes serrées + sources élaguées. Résultat : timeouts récurrents. Le subagent OpenAI a halluciné un tool write_file inexistant. Subagent LangGraph a fait 13 web_extract au lieu des 3 demandés (bornes en prompt non enforced par Hermes).

Tentative 4 — DeepSeek + mode agent direct (pas de subagents). Résultat : rapport produit en 25 minutes pour ~0,04 $, mais erreur factuelle majeure : DeepSeek a conclu que "AWS Strands Agents n'existe pas" parce que aws.amazon.com/strands retournait 404. Il a remplacé la fiche Strands par une fiche AWS Bedrock Agents + AgentCore, deux produits différents. Hermes n'avait pas tenté github.com/strands-agents ni strandsagents.com qui étaient pourtant explicitement listés dans le prompt.

Bascule de modèle — Claude Haiku 4.5 sur les subagents ET le parent. Modification de ~/.hermes/config.yaml via sed : model.default et delegation.model passés à anthropic/claude-haiku-4.5, max_concurrent_children bumpé de 3 à 4.

Tentative 7 — Haiku 4.5 + delegate_task (4 subagents parallèles). Résultat : succès en 95 secondes pour environ 0,03 $. Aucun timeout, fiche Strands correctement identifiée, classement produit, HTML généré, mail envoyé.

Pourquoi Haiku a réussi là où DeepSeek échouait

Métrique	DeepSeek V4 Pro	Claude Haiku 4.5
Vitesse d'inférence (tokens/s)	~30-40	112 (observé)
Durée 4 subagents en parallèle	Timeout 600s (échec)	95s (succès)
Adhérence aux bornes du prompt	Faible (13 web_extract au lieu de 3)	Bonne
Hallucinations sur Strands	Oui ("n'existe pas")	Non
Tarif input OpenRouter	0,435 $/1M	1,00 $/1M (2,3× plus cher)
Tarif output OpenRouter	0,87 $/1M	5,00 $/1M (5,7× plus cher)
Provider routé par OpenRouter	Divers (DeepSeek, Lambda, etc.)	Amazon Bedrock (souveraineté de fait UE possible)

Coût comparé final — à lire comme un ordre de grandeur

Les montants ci-dessous correspondent uniquement aux runs identifiés dans ce post-mortem, c’est-à-dire aux tentatives directement liées à cette comparaison. Ils servent à comparer le comportement relatif des modèles, pas à chiffrer toute la journée d’expérimentation.

Tentatives DeepSeek documentées ici (5 essais, dont 3 timeouts complets) : ~0,12 $ cumulés, dont environ 0,05 $ perdus en pure perte sur les timeouts
Tentative Haiku finale documentée ici (1 essai réussi) : ~0,03 $
Sous-total observable sur ce scénario : ~0,15 $, pour comparer les runs retenus dans l’analyse

Important sur le coût réel. Ce chiffre ne représente pas le coût complet de la journée. Il ne prend pas en compte tous les essais-erreurs autour du setup, les relances, les prompts ratés, les itérations de génération HTML, les corrections, les tests de configuration, ni les échanges exploratoires autour d’Hermes. En pratique, la journée m’a coûté nettement plus cher que ce sous-total : le montant affiché ici isole seulement la partie exploitable pour comparer DeepSeek et Haiku sur ce cas précis. C’est précisément cette problématique de coût qui explique le choix initial de DeepSeek plutôt que Sonnet pour les premières itérations.

La conclusion contre-intuitive reste valable sur ce scénario : payer 2-6× plus cher pour Haiku a permis de réussir là où DeepSeek perdait du coût en timeouts. Le coût brut du modèle est secondaire devant la vitesse d'inférence, l'adhérence aux consignes et la robustesse de l'orchestration.

Temps total et leçons

Temps total de la session : environ 6 heures, dont 5h30 de tentatives DeepSeek frustrantes et 30 minutes une fois Haiku en place (édition config.yaml, restart gateway, run, fact-checking).

Enseignement de configuration

L'enseignement pratique n'est pas une valeur de configuration précise, mais une stratégie : envisager un setup mixte, avec un modèle économique et confortable pour le chat interactif, et un modèle plus discipliné / rapide réservé aux subagents et aux tâches déléguées.

C'est le point important de l'expérience : pour les workflows agentiques, le meilleur modèle n'est pas forcément celui qui donne la meilleure réponse conversationnelle. C'est celui qui respecte le mieux les bornes, utilise correctement les outils et termine la tâche dans le temps imparti.