Présentation de l'observabilité

L'observabilité des agents dans Gemini Enterprise Agent Platform offre une visibilité complète sur les performances, le comportement et l'état de vos agents déployés et de vos serveurs MCP (Model Context Protocol). En surveillant les métriques clés, en traçant les chemins d'exécution et en observant votre système multi-agents dans son ensemble, vous pouvez diagnostiquer les problèmes, optimiser la consommation de ressources et améliorer la fiabilité de vos agents.

Ce document présente les outils d'observabilité disponibles dans la plate-forme Gemini Enterprise Agent, y compris la topologie à l'échelle du système, la surveillance des agents individuels et les métriques des serveurs MCP.

Configuration de la télémétrie

Pour remplir ces tableaux de bord, topologies et traces d'observabilité, vos agents doivent être configurés pour envoyer des données de télémétrie au format OpenTelemetry aux systèmes de stockage de Google Cloud Observability.

Assurez-vous que les environnements de votre agent et de votre serveur MCP sont correctement configurés pour émettre ces données. Les composants Google Cloud intégrés émettent automatiquement des données de télémétrie au format OpenTelemetry. Par exemple, Model Armor émet nativement des données de télémétrie standardisées, ce qui vous permet d'exposer et de surveiller facilement les interceptions de règles en temps réel directement dans vos données de trace, sans nécessiter d'instrumentation personnalisée.

Pour obtenir des instructions et des exigences concernant la configuration de la télémétrie de l'agent, consultez les ressources suivantes :

Pour instrumenter les agents créés avec ADK, consultez Instrumenter les applications ADK avec OpenTelemetry.
Pour instrumenter des agents sur Agent Runtime qui n'ont pas été créés avec ADK, consultez Instrumenter des applications d'IA générative.
Pour la télémétrie du serveur MCP, consultez Utiliser Cloud Trace pour surveiller l'utilisation des outils MCP.
Pour la télémétrie Model Armor, consultez Configurer la journalisation Model Armor.

Topologie de l'agent

La vue de la topologie multi-agent fournit une carte visuelle à l'échelle du système de l'architecture de votre système multi-agent. Il affiche les relations et les flux de trafic en temps réel entre tous les agents et serveurs MCP connus de votre Agent Registry. Cette vue agrégée vous aide à comprendre les dépendances complexes et à identifier les goulots d'étranglement potentiels dans votre écosystème.

En plus de la vue de la topologie multi-agents, vous pouvez également afficher les dépendances entrantes et sortantes spécifiques pour un seul agent. Cette vue de la topologie à agent unique est basée sur les données de trace de l'agent sélectionné.

Pour obtenir des instructions détaillées sur la navigation et l'interprétation des graphiques de topologie des agents, consultez Afficher les relations et la topologie des agents.

Signaux d'observabilité

Gemini Enterprise Agent Platform fournit l'observabilité via des métriques, des traces et des journaux.

Lorsque vous sélectionnez un agent spécifique dans le Registre, l'onglet Observabilité fournit une suite de tableaux de bord ciblés pour surveiller son état opérationnel, ses performances et l'utilisation de l'infrastructure. Utilisez le panneau de navigation de gauche dans l'onglet Observabilité pour basculer entre les vues suivantes :

Aperçu : suit l'utilisation globale au cours de la période sélectionnée, y compris le nombre total de sessions, le nombre moyen de tours par session et le nombre total d'invocations d'agent. Les graphiques de séries temporelles affichent l'utilisation des jetons (entrée par rapport à la sortie), le volume global du trafic des agents, les centiles de latence (p50, p95, p99) et les taux d'erreur.
Évaluation : affiche des moniteurs en ligne pour une évaluation continue de la qualité. Cela inclut les widgets de série temporelle qui suivent la qualité moyenne des réponses, les métriques de sécurité, les taux d'hallucination et la qualité de l'utilisation des outils.
Modèles : détaille les performances par modèle de fondation sous-jacent. Vous pouvez surveiller la latence p95, le nombre total d'appels, les taux d'erreur, les échecs de quota et l'utilisation de jetons isolés par modèles spécifiques.
Outils : surveille les outils et services externes connectés à l'agent. Cette vue détaille la latence p95, le nombre d'appels et les taux d'erreur par outil, ainsi que la fréquence des interactions sans appel d'outil.
Utilisation : fournit des métriques au niveau de l'infrastructure pour l'environnement d'exécution de l'agent, y compris l'allocation de CPU et de mémoire de conteneur, ainsi que l'utilisation de jetons.
Journaux : affiche un flux filtrable de journaux d'agent bruts, y compris la gravité, les codes temporels et les récapitulatifs d'exécution pour un dépannage approfondi. Pour en savoir plus, consultez Afficher les journaux de l'agent.

En plus des tableaux de bord de l'onglet Observabilité, vous pouvez utiliser l'onglet Traces de l'agent pour inspecter l'exécution pas à pas de sessions spécifiques, y compris les graphes orientés acycliques des spans et des entrées/sorties. Pour en savoir plus, consultez Afficher les traces de l'agent. Vous pouvez également utiliser l'onglet Topologie pour afficher les dépendances entrantes et sortantes spécifiques à cet agent.

Pour les serveurs MCP, vous pouvez surveiller le nombre de requêtes et la durée des requêtes p95 afin de suivre l'utilisation et la réactivité.

Conventions OpenTelemetry pour l'IA générative

Les traces d'agent et les journaux d'invites et de réponses s'appuient fortement sur les conventions sémantiques OpenTelemetry pour les systèmes d'IA générative afin de standardiser la façon dont la télémétrie de l'IA générative est capturée, structurée et signalée.

Il est essentiel de respecter ces conventions pour le traçage des agents, car elles établissent un format universel et indépendant du fournisseur pour décrire les workflows d'agents complexes en plusieurs étapes, tels que les exécutions d'outils, les étapes de récupération et la consommation de jetons. Cette standardisation permet une interopérabilité fluide entre différents backends d'observabilité et outils d'analyse, à l'intérieur et à l'extérieur de Google Cloud.

Étapes suivantes

Affichez les relations entre les agents sous forme de graphique de topologie.
Affichez les traces de l'agent pour déboguer son comportement.
Évaluez vos agents.