Remarque : Cette documentation s'applique aux éditions Standard, Plus et Frontline de Gemini Enterprise. Pour en savoir plus sur l'édition Business, consultez le Centre d'aide Gemini Enterprise – Édition Business.

Présentation des connecteurs et des data stores

Les connecteurs récupèrent les données de sources de données Google et tierces dans Gemini Enterprise, et les stockent dans des datastores dédiés. Ce document présente ces connecteurs. La centralisation de vos données dans Gemini Enterprise améliore l'accessibilité des données, la fonctionnalité de recherche et les capacités d'analyse.

Image de présentation montrant comment les connecteurs importent des données dans Gemini Enterprise. — Présentation des connecteurs

Concepts liés aux connecteurs et data store

Data stores

Chaque source de données est compatible avec un ensemble de types d'entités. Par exemple, Jira Cloud comporte des entités telles que les problèmes, les pièces jointes, les commentaires et les journaux de travail, qui sont propres à la source de données. Gemini Enterprise crée un data store distinct pour chaque entité. Par conséquent, lorsque vous créez un data store à l'aide de la Google Cloud console, vous obtenez une collection de datastores représentant ces entités de données ingérées.

Fédération de données par rapport à l'ingestion (indexation)

La fédération de données récupère directement les informations à partir de la source de données spécifiée. Étant donné que les données ne sont pas copiées dans l'index Vertex AI Search, vous n'avez pas à vous soucier du stockage des données. Toutefois, comme les données ne sont pas indexées, la qualité de la recherche peut être inférieure.

L'ingestion de données (indexation) copie les données dans l' index Vertex AI Search. Cela peut améliorer la qualité de la recherche. Toutefois, ce processus consomme plus de stockage et de temps.

Si le connecteur est compatible à la fois avec la fédération et l'ingestion de données, sélectionnez la méthode de connexion de données de votre choix.

Données non structurées

Le format de données accepté est spécifique à la source de données et au type d'entité. Si le contenu d'une entité est stocké dans un format non structuré (PDF, HTML, DOCX, PPTX, XLSX et XLSM, par exemple), Vertex AI Search crée un data store non structurées. Pour en savoir plus et connaître les types de fichiers acceptés, consultez Recherche non structurée.

Données structurées

Le format de données accepté est spécifique à la source de données et au type d'entité. Si le contenu d'une entité est stocké dans un format structuré, Vertex AI Search crée un data store structurées. Pour en savoir plus, consultez Recherche structurée.

Schémas de données

Le schéma de données définit la structure des données. Lorsque vous importez des données structurées à l'aide de Gemini Enterprise, le système détecte automatiquement le schéma. Vous pouvez utiliser le schéma détecté automatiquement ou définir le schéma à l'aide de l'API. Pour en savoir plus, consultez Fournir ou détecter automatiquement un schéma.

Régions de datastore

Lorsque vous ingérez des données, vous devez sélectionner la région dans laquelle vous souhaitez les stocker (par exemple, "global", "États-Unis" ou l' UE). Pour en savoir plus, consultez Résidence des données et engagements régionaux de traitement ML. Les données stockées dans les régions États-Unis ou UE nécessitent un chiffrement. Le chiffrement par défaut est avec Google-owned and Google-managed encryption keys, mais vous pouvez également utiliser des clés de chiffrement gérées par le client.

Synchronisations de données

Une synchronisation de données extrait et met à jour les données d'identité (telles que les rôles, les autorisations et les utilisateurs) et les données d'entité (telles que les données associées à une source de données spécifique) à partir de la source de données d'origine. Pour en savoir plus, consultez Types et plannings de synchronisation des données.

Types et plannings de synchronisation des données

Une synchronisation de données capture les données d'entité, les données d'identité ou les deux, et met à jour le contenu du data store dans Gemini Enterprise.

Types de synchronisation

Les datastores de Gemini Enterprise utilisent deux types essentiels de synchronisation des données :

Une synchronisation complète capture l'état complet de l'application ou du service tiers. Cela inclut les ajouts, les mises à jour et les suppressions. Une synchronisation complète remplace le contenu existant du data store.
Une synchronisation incrémentielle capture régulièrement les données d'entité qui ont été ajoutées ou mises à jour depuis la dernière synchronisation. Elle ne synchronise pas les données d'identité ni les suppressions de données d'entité.

Vous pouvez planifier une synchronisation complète séparément pour les types de données suivants :

Une synchronisation d'entité capture les données spécifiques à la source de données tierce. Par exemple, un data store pour un système tel que Jira peut synchroniser les problèmes, les journaux de travail, les commentaires et les pièces jointes. Les synchronisations d'entités n'incluent pas les informations d'identité.
Une synchronisation d'identité capture les données sur les comptes utilisateur associés à un groupe de liste de contrôle d'accès.

Interaction entre la synchronisation d'identité et la synchronisation complète

Pour comprendre comment une exécution de synchronisation d'identité individuelle fonctionne avec une exécution de synchronisation complète, prenons l'exemple d'un scénario incluant deux pages : page_1, associée à un groupe de liste de contrôle d'accès group_1, et page_2, associée à un groupe de liste de contrôle d'accès group_2.

Une synchronisation d'identité initiale s'exécute et récupère des informations sur les groupes group_1 et group_2.
- Supposons que group_1 contienne l'utilisateur user_1.
- Supposons que group_2 contienne l'utilisateur user_2.
Cette synchronisation d'identité établit le mappage suivant :
- user_1 est mappé à group_1.
- user_2 est mappé à group_2.
Parallèlement à la synchronisation d'identité, une synchronisation complète s'exécute, récupérant à la fois page_1 et page_2.

Cette synchronisation complète établit le mappage suivant :
- user_1 a accès à page_1 (via group_1).
- user_2 a accès à page_2 (via group_2).

Plannings de synchronisation

Pour chaque data store, vous pouvez sélectionner une fréquence pour différents types de synchronisation :

Les synchronisations complètes de toutes les données d'identité et d'entité peuvent être planifiées simultanément toutes les 3 heures, 6 heures, 12 heures, 1 jour ou 3 jours.
Les synchronisations complètes indépendantes de toutes les données d'identité et les synchronisations complètes indépendantes de toutes les données d'entité peuvent être planifiées séparément à l'aide de l'une des fréquences de synchronisation personnalisées suivantes :
- Données d'entité : toutes les 3 heures, 6 heures, 12 heures, 1 jour, 3 jours, 5 jours et 7 jours.
- Données d'identité : toutes les 30 minutes, 1 heure, 3 heures, 6 heures, 12 heures, 1 jour, 3 jours, 5 jours et 7 jours.
Les synchronisations incrémentielles des données d'entité mises à jour ou ajoutées peuvent être planifiées toutes les 3 heures, 6 heures, 12 heures, 1 jour, 3 jours, 5 jours ou 7 jours. Par défaut, une synchronisation incrémentielle est effectuée toutes les 3 heures.

Remarque : Les synchronisations incrémentielles doivent être planifiées pour se produire plus fréquemment que la synchronisation complète. Par exemple, si vous avez planifié des synchronisations complètes toutes les 12 heures, vous ne pouvez planifier des synchronisations incrémentielles que toutes les 3 heures ou toutes les 6 heures.

Si vous planifiez une synchronisation incrémentielle et une synchronisation complète à la même fréquence, la synchronisation incrémentielle sera automatiquement mise en pause et nécessitera une intervention manuelle pour reprendre.

Recommandations de fréquence

Choisissez une fréquence de synchronisation des données qui correspond au volume d'enregistrements récupérés et aux requêtes par seconde (RPS) recommandées.

Le tableau suivant indique le nombre typique d'enregistrements récupérés pour les synchronisations d'un, trois, cinq et sept jours. Le nombre réel d'enregistrements peut varier en fonction de la source de données et de sa configuration.

RPS	Volume d'enregistrements pour une synchronisation d'un jour	Volume d'enregistrements pour une synchronisation de trois jours	Volume d'enregistrements pour une synchronisation de cinq jours	Volume d'enregistrements pour une synchronisation de sept jours
5	432 000	1 296 000	2 160 000	3 000 000
10	864 000	2 592 000	4 320 000	6 000 000
20	1 700 000	5 100 000	8 500 000	11 900 000
50	4 300 000	12 900 000	21 500 000	30 100 000
100	8 600 000	25 800 000	43 000 000	60 200 000

Mettre en pause et reprendre les synchronisations

Vous pouvez mettre en pause et reprendre les synchronisations complètes et incrémentielles :

Lorsque vous mettez en pause un type de synchronisation, le data store annule les synchronisations en cours de ce type et arrête la planification de nouvelles synchronisations de ce type.
Lorsque vous reprenez un type de synchronisation, le data store planifie la nouvelle synchronisation en fonction de la dernière heure de synchronisation planifiée, mais ne poursuit pas la synchronisation précédemment interrompue.

Par exemple, si vous mettez en pause la synchronisation complète pendant qu'elle est en cours, le datastore l'annule. Si vous reprenez ensuite la synchronisation complète, le data store planifie automatiquement une nouvelle synchronisation complète en fonction du planning de synchronisation complète.

Sources de données Google

Vous pouvez vous connecter à des sources de données Google, telles que BigQuery, Spanner et Google Drive.

Check-list pour les sources de données Google

Avant d'envoyer des données à Gemini Enterprise, consultez la check-list suivante :

Configurez le contrôle des accès pour votre source de données. Pour en savoir plus, consultez Identité et autorisations.
Déterminez si les données doivent être fédérées ou ingérées (indexées).
Déterminez la fréquence de synchronisation des données.
Si vous utilisez des clés de chiffrement gérées par le client (CMEK), créez des clés multirégionales. Pour en savoir plus, consultez Enregistrer des clés à région unique pour les sources de données tierces.
Si vous disposez d'informations permettant d'identifier personnellement l'utilisateur et que vous prévoyez d'utiliser la saisie semi-automatique pour les suggestions de requêtes, consultez Protéger contre les fuites d'informations permettant d'identifier personnellement l'utilisateur.

Sources de données Google compatibles

Google Drive	Gmail	Google Agenda	Recherche de personnes

Sources de données tierces

Les datastores tiers ingèrent les données d'application tierces dans Gemini Enterprise.

Check-list pour les sources de données tierces

Avant de connecter une source de données tierce à Gemini Enterprise, consultez la check-list suivante :

Des champs d'application et des autorisations spécifiques doivent être configurés pour certaines sources de données. Un administrateur de l'application tierce doit examiner les identifiants requis pour connecter une source de données, et configurer l'authentification et les autorisations. Pour en savoir plus sur les champs d'application et les autorisations spécifiques, consultez la documentation de la source de données tierce correspondante.
Configurez le contrôle des accès pour votre data store. Pour en savoir plus, consultez Identité et autorisations.
Déterminez si les données doivent être fédérées ou ingérées (indexées).
Si les données sont ingérées, assurez-vous que les ressources ne sont pas limitées pour les identifiants utilisateur que vous utilisez pour ingérer les données dans la source de données.
Déterminez la fréquence de synchronisation des données.
Si vous utilisez des clés de chiffrement gérées par le client (CMEK), créez des clés multirégionales et à région unique. Pour en savoir plus, consultez Enregistrer des clés à région unique pour les datastores tiers.
Si vous disposez d'informations permettant d'identifier personnellement l'utilisateur et que vous prévoyez d'utiliser la saisie semi-automatique pour les suggestions de requêtes, consultez Protéger contre les fuites d'informations permettant d'identifier personnellement l'utilisateur.