Les connecteurs récupèrent les données de sources de données Google et tierces dans Gemini Enterprise, et les stockent dans des datastores dédiés. Ce document présente ces connecteurs. La centralisation de vos données dans Gemini Enterprise améliore l'accessibilité des données, la fonctionnalité de recherche et les capacités d'analyse.
Concepts liés aux connecteurs et data store
Data stores |
| Chaque source de données est compatible avec un ensemble de types d'entités. Par exemple, Jira Cloud comporte des entités telles que les problèmes, les pièces jointes, les commentaires et les journaux de travail, qui sont propres à la source de données. Gemini Enterprise crée un data store distinct pour chaque entité. Par conséquent, lorsque vous créez un data store à l'aide de la Google Cloud console, vous obtenez une collection de datastores représentant ces entités de données ingérées. |
Fédération de données par rapport à l'ingestion (indexation) |
| La fédération de données récupère directement
les informations à partir de la source de données spécifiée. Étant donné que les données ne sont pas copiées dans
l'index Vertex AI Search, vous n'avez pas à vous soucier du stockage des données. Toutefois, comme les données ne sont pas indexées, la qualité de la recherche peut être
inférieure. L'ingestion de données (indexation) copie les données dans l' index Vertex AI Search. Cela peut améliorer la qualité de la recherche. Toutefois, ce processus consomme plus de stockage et de temps. Si le connecteur est compatible à la fois avec la fédération et l'ingestion de données, sélectionnez la méthode de connexion de données de votre choix. |
Données non structurées |
| Le format de données accepté est spécifique à la source de données et au type d'entité. Si le contenu d'une entité est stocké dans un format non structuré (PDF, HTML, DOCX, PPTX, XLSX et XLSM, par exemple), Vertex AI Search crée un data store non structurées. Pour en savoir plus et connaître les types de fichiers acceptés, consultez Recherche non structurée. |
Données structurées |
| Le format de données accepté est spécifique à la source de données et au type d'entité. Si le contenu d'une entité est stocké dans un format structuré, Vertex AI Search crée un data store structurées. Pour en savoir plus, consultez Recherche structurée. |
Schémas de données |
| Le schéma de données définit la structure des données. Lorsque vous importez des données structurées à l'aide de Gemini Enterprise, le système détecte automatiquement le schéma. Vous pouvez utiliser le schéma détecté automatiquement ou définir le schéma à l'aide de l'API. Pour en savoir plus, consultez Fournir ou détecter automatiquement un schéma. |
Régions de datastore |
| Lorsque vous ingérez des données, vous devez sélectionner la région dans laquelle vous souhaitez les stocker (par exemple, "global", "États-Unis" ou l' UE). Pour en savoir plus, consultez Résidence des données et engagements régionaux de traitement ML. Les données stockées dans les régions États-Unis ou UE nécessitent un chiffrement. Le chiffrement par défaut est avec Google-owned and Google-managed encryption keys, mais vous pouvez également utiliser des clés de chiffrement gérées par le client. |
Synchronisations de données |
Une synchronisation de données extrait et met à jour les données d'identité (telles que les rôles, les autorisations et les utilisateurs) et les données d'entité (telles que les données associées à une source de données spécifique) à partir de la source de données d'origine. Pour en savoir plus, consultez Types et plannings de synchronisation des données. |
Types et plannings de synchronisation des données
Une synchronisation de données capture les données d'entité, les données d'identité ou les deux, et met à jour le contenu du data store dans Gemini Enterprise.
Types de synchronisation
Les datastores de Gemini Enterprise utilisent deux types essentiels de synchronisation des données :
Une synchronisation complète capture l'état complet de l'application ou du service tiers. Cela inclut les ajouts, les mises à jour et les suppressions. Une synchronisation complète remplace le contenu existant du data store.
Une synchronisation incrémentielle capture régulièrement les données d'entité qui ont été ajoutées ou mises à jour depuis la dernière synchronisation. Elle ne synchronise pas les données d'identité ni les suppressions de données d'entité.
Vous pouvez planifier une synchronisation complète séparément pour les types de données suivants :
Une synchronisation d'entité capture les données spécifiques à la source de données tierce. Par exemple, un data store pour un système tel que Jira peut synchroniser les problèmes, les journaux de travail, les commentaires et les pièces jointes. Les synchronisations d'entités n'incluent pas les informations d'identité.
Une synchronisation d'identité capture les données sur les comptes utilisateur associés à un groupe de liste de contrôle d'accès.
Interaction entre la synchronisation d'identité et la synchronisation complète
Pour comprendre comment une exécution de synchronisation d'identité individuelle fonctionne avec une exécution de synchronisation complète, prenons l'exemple d'un scénario incluant deux pages : page_1, associée à un groupe de liste de contrôle d'accès group_1, et page_2, associée à un groupe de liste de contrôle d'accès group_2.
Une synchronisation d'identité initiale s'exécute et récupère des informations sur les groupes
group_1etgroup_2.Supposons que
group_1contienne l'utilisateuruser_1.Supposons que
group_2contienne l'utilisateuruser_2.
Cette synchronisation d'identité établit le mappage suivant :
user_1est mappé àgroup_1.user_2est mappé àgroup_2.
Parallèlement à la synchronisation d'identité, une synchronisation complète s'exécute, récupérant à la fois
page_1etpage_2.Cette synchronisation complète établit le mappage suivant :
user_1a accès àpage_1(viagroup_1).user_2a accès àpage_2(viagroup_2).
Plannings de synchronisation
Pour chaque data store, vous pouvez sélectionner une fréquence pour différents types de synchronisation :
Les synchronisations complètes de toutes les données d'identité et d'entité peuvent être planifiées simultanément toutes les 3 heures, 6 heures, 12 heures, 1 jour ou 3 jours.
Les synchronisations complètes indépendantes de toutes les données d'identité et les synchronisations complètes indépendantes de toutes les données d'entité peuvent être planifiées séparément à l'aide de l'une des fréquences de synchronisation personnalisées suivantes :
Données d'entité : toutes les 3 heures, 6 heures, 12 heures, 1 jour, 3 jours, 5 jours et 7 jours.
Données d'identité : toutes les 30 minutes, 1 heure, 3 heures, 6 heures, 12 heures, 1 jour, 3 jours, 5 jours et 7 jours.
Les synchronisations incrémentielles des données d'entité mises à jour ou ajoutées peuvent être planifiées toutes les 3 heures, 6 heures, 12 heures, 1 jour, 3 jours, 5 jours ou 7 jours. Par défaut, une synchronisation incrémentielle est effectuée toutes les 3 heures.
Recommandations de fréquence
Choisissez une fréquence de synchronisation des données qui correspond au volume d'enregistrements récupérés et aux requêtes par seconde (RPS) recommandées.
Le tableau suivant indique le nombre typique d'enregistrements récupérés pour les synchronisations d'un, trois, cinq et sept jours. Le nombre réel d'enregistrements peut varier en fonction de la source de données et de sa configuration.
| RPS | Volume d'enregistrements pour une synchronisation d'un jour | Volume d'enregistrements pour une synchronisation de trois jours | Volume d'enregistrements pour une synchronisation de cinq jours | Volume d'enregistrements pour une synchronisation de sept jours |
|---|---|---|---|---|
| 5 | 432 000 | 1 296 000 | 2 160 000 | 3 000 000 |
| 10 | 864 000 | 2 592 000 | 4 320 000 | 6 000 000 |
| 20 | 1 700 000 | 5 100 000 | 8 500 000 | 11 900 000 |
| 50 | 4 300 000 | 12 900 000 | 21 500 000 | 30 100 000 |
| 100 | 8 600 000 | 25 800 000 | 43 000 000 | 60 200 000 |
Mettre en pause et reprendre les synchronisations
Vous pouvez mettre en pause et reprendre les synchronisations complètes et incrémentielles :
Lorsque vous mettez en pause un type de synchronisation, le data store annule les synchronisations en cours de ce type et arrête la planification de nouvelles synchronisations de ce type.
Lorsque vous reprenez un type de synchronisation, le data store planifie la nouvelle synchronisation en fonction de la dernière heure de synchronisation planifiée, mais ne poursuit pas la synchronisation précédemment interrompue.
Par exemple, si vous mettez en pause la synchronisation complète pendant qu'elle est en cours, le datastore l'annule. Si vous reprenez ensuite la synchronisation complète, le data store planifie automatiquement une nouvelle synchronisation complète en fonction du planning de synchronisation complète.
Sources de données Google
Vous pouvez vous connecter à des sources de données Google, telles que BigQuery, Spanner et Google Drive.
Check-list pour les sources de données Google
Avant d'envoyer des données à Gemini Enterprise, consultez la check-list suivante :
Configurez le contrôle des accès pour votre source de données. Pour en savoir plus, consultez Identité et autorisations.
Déterminez si les données doivent être fédérées ou ingérées (indexées).
Déterminez la fréquence de synchronisation des données.
Si vous utilisez des clés de chiffrement gérées par le client (CMEK), créez des clés multirégionales. Pour en savoir plus, consultez Enregistrer des clés à région unique pour les sources de données tierces.
Si vous disposez d'informations permettant d'identifier personnellement l'utilisateur et que vous prévoyez d'utiliser la saisie semi-automatique pour les suggestions de requêtes, consultez Protéger contre les fuites d'informations permettant d'identifier personnellement l'utilisateur.
Sources de données Google compatibles
| Google Drive | Gmail | Google Agenda | Recherche de personnes |
|
|
|
|
|
Sources de données tierces
Les datastores tiers ingèrent les données d'application tierces dans Gemini Enterprise.
Check-list pour les sources de données tierces
Avant de connecter une source de données tierce à Gemini Enterprise, consultez la check-list suivante :
Des champs d'application et des autorisations spécifiques doivent être configurés pour certaines sources de données. Un administrateur de l'application tierce doit examiner les identifiants requis pour connecter une source de données, et configurer l'authentification et les autorisations. Pour en savoir plus sur les champs d'application et les autorisations spécifiques, consultez la documentation de la source de données tierce correspondante.
Configurez le contrôle des accès pour votre data store. Pour en savoir plus, consultez Identité et autorisations.
Déterminez si les données doivent être fédérées ou ingérées (indexées).
Si les données sont ingérées, assurez-vous que les ressources ne sont pas limitées pour les identifiants utilisateur que vous utilisez pour ingérer les données dans la source de données.
Déterminez la fréquence de synchronisation des données.
Si vous utilisez des clés de chiffrement gérées par le client (CMEK), créez des clés multirégionales et à région unique. Pour en savoir plus, consultez Enregistrer des clés à région unique pour les datastores tiers.
Si vous disposez d'informations permettant d'identifier personnellement l'utilisateur et que vous prévoyez d'utiliser la saisie semi-automatique pour les suggestions de requêtes, consultez Protéger contre les fuites d'informations permettant d'identifier personnellement l'utilisateur.
Sources de données tierces compatibles
| Microsoft Entra ID | Microsoft OneDrive | Microsoft Outlook | Microsoft SharePoint |
|
|
|
|
|
| Jira Cloud | Confluence Cloud | ServiceNow | |
|
|
|
|