Aller au contenu principal
SaaS

Coordination multi-agents : les 14 modes d'échec et comment les éviter

Le papier Cemri 2025 a recensé 14 modes d'échec récurrents dans les systèmes multi-agents. Diagnostic, et trois familles d'architecture pour s'en prémunir.

Équipe SwoftPôle veille IA & systèmes agentiques
Réseau de plusieurs agents en coordination avec points de défaillance identifiés

Faire collaborer plusieurs agents IA sur un même processus métier est un problème ouvert. Les frameworks se multiplient (LangGraph, CrewAI, AutoGen, MetaGPT), les approches divergent, et la production révèle des modes d'échec qui ne sont pas tous documentés. En mars 2025, un papier de Cemri et al. publié sur arXiv a fait référence en répertoriant 14 modes d'échec récurrents dans les systèmes multi-agents.

Cet article résume ces modes d'échec, propose une lecture des trois familles d'architecture du marché, et explique pourquoi l'alignement Conway est la réponse la plus robuste.

Les 14 modes d'échec en synthèse

  • Cascade d'erreurs : une erreur amont se propage et s'amplifie en aval, sans que personne ne la corrige.
  • Perte de contexte : un agent ne sait pas ce qu'un autre agent a déjà fait, et reproduit du travail.
  • Négociation infinie : deux agents itèrent sans converger, brûlant des tokens sans résultat.
  • Hallucination collective : un fait inventé par un agent est repris comme acquis par les autres.
  • Contradiction de rôles : deux agents prennent des décisions contradictoires sur le même objet.
  • Dérive d'objectif : le système oublie le but initial et se concentre sur des sous-objectifs locaux.
  • Blocage par dépendance circulaire : A attend B, B attend C, C attend A, le système se fige.
  • Attribution floue : on ne sait pas quel agent a pris quelle décision, l'audit est impossible.
  • Surcharge d'orchestration : l'orchestrateur central devient le goulot et ralentit tout.
  • Contention sur ressource partagée : plusieurs agents écrivent le même registre sans coordination.
  • Délégation excessive : un agent délègue tout aux autres et ne fait plus rien lui-même.
  • Sycophantie : les agents se valident mutuellement sans esprit critique, biais collectif.
  • Dérive sémantique : le sens d'une notion change progressivement entre agents, incohérence in fine.
  • Effondrement de capacité : sous certains volumes, le système perd toute coordination utile.

Tous ces modes ne sont pas équiprobables. Cascade d'erreurs, perte de contexte et négociation infinie sont les trois plus fréquents en production. Hallucination collective et contradiction de rôles sont les plus dangereux quand ils surviennent.

Trois familles d'architecture, trois compromis

Sur le marché 2026, on peut classer les frameworks multi-agents en trois familles selon leur topologie de coordination.

Topologie en étoile : un orchestrateur central

Un agent superviseur pilote des agents spécialisés. C'est le modèle de LangGraph en mode supervisor et de la plupart des implémentations CrewAI. Avantage : prévisibilité forte, l'orchestrateur a la vision d'ensemble. Inconvénient : scalabilité limitée, point de défaillance unique, surcharge d'orchestration au-delà de cinq ou six agents.

Topologie en graphe : agents pairs qui s'envoient des messages

Tous les agents sont au même niveau, ils communiquent par messages selon des règles déclarées. AutoGen et certaines configurations CrewAI fonctionnent ainsi. Avantage : flexibilité, pas de goulot. Inconvénient : très exposé aux modes d'échec recensés par Cemri, en particulier la dérive sémantique et la négociation infinie.

Topologie alignée Conway : structure organisationnelle exécutable

Les agents sont structurés selon les frontières organisationnelles ou domaines du système. La communication passe par événements typés persistés. C'est l'architecture Swoft, et c'est aussi celle vers laquelle convergent les systèmes neurosymboliques d'entreprise comme FAOS. Avantages : alignement métier fort, gouvernance claire, modes d'échec drastiquement réduits. Inconvénient : nécessite une modélisation préalable du domaine, ce que ne demandent pas les frameworks plus libres.

Pourquoi Conway est la réponse la plus robuste

L'alignement Conway adresse structurellement la majorité des 14 modes d'échec. La cascade d'erreurs est bornée par les bounded contexts disjoints : une erreur dans un domaine ne contamine pas les autres. La perte de contexte est éliminée par la mémoire partagée de l'Event Store. La contradiction de rôles est mécaniquement impossible parce que les bounded contexts sont disjoints. La dérive d'objectif est captée par les approval gates injectées dans les sagas.

Trois conditions techniques rendent l'alignement Conway opérationnel. Première condition : un métamodèle qui décrit les bounded contexts et leurs relations. Deuxième condition : une communication par événements typés et persistés, jamais par texte libre. Troisième condition : une orchestration des workflows longs par sagas event-sourcées, avec compensation automatique en cas d'échec partiel.

Sujets abordés

  • Multi-agents
  • Conway
  • Coordination
  • Cemri
  • Architecture IA
Traduction technologique

Comment Swoft traduit cet enjeu en logiciel

Chez Swoft, la coordination multi-agents repose sur trois principes alignés sur la loi de Conway. Voici comment ils se traduisent en garanties opérationnelles.

  1. 01

    Bounded contexts disjoints

    Chaque agent est rattaché à un bounded context du métamodèle DDD. Les contextes sont disjoints par construction : aucune contradiction de rôles possible, aucune contamination d'erreur entre domaines.

  2. 02

    Communication par événements typés

    Les agents ne se parlent jamais en texte libre. Toute communication entre agents passe par des événements typés persistés dans l'Event Store. La dérive sémantique et la négociation infinie deviennent structurellement impossibles.

  3. 03

    Sagas event-sourcées avec compensation

    Les workflows longs sont orchestrés par des sagas event-sourcées. En cas d'échec partiel, la compensation automatique restaure un état cohérent. La cascade d'erreurs est bornée, le système ne se fige jamais sur un blocage circulaire.

Continuer la lecture — SaaS