Connecteur Microsoft Graph cloud sites web d’entreprise

Le connecteur Microsoft Graph cloud Sites web d’entreprise permet à vos organization d’indexer des pages web et du contenu à partir de sites web appartenant à votre entreprise ou de sites web publics sur Internet. Après avoir configuré le connecteur et indexé le contenu du site web, les utilisateurs finaux peuvent rechercher ce contenu dans Recherche Microsoft et Microsoft 365 Copilot.

Cet article est destiné aux administrateurs Microsoft 365 ou à toute personne qui configure, exécute et surveille un connecteur Microsoft Graph cloud sites web d’entreprise.

Importante

Vous pouvez utiliser le connecteur Microsoft Graph Site web d’entreprise local pour indexer des sites web hébergés localement ou sur des clouds privés.

Fonctionnalités

  • Indexer des pages web à partir de sites web accessibles dans le cloud.
  • Indexer jusqu’à 50 sites web dans une même connexion.
  • Exclure les pages web de l’analyse à l’aide de règles d’exclusion.
  • Utilisez la recherche sémantique dans Copilot pour permettre aux utilisateurs de trouver du contenu pertinent.

Types de fichiers pris en charge

File Extension Type de fichier Description
.pdf PDF Portable Document Format
.Odt Texte OpenDocument Document texte OpenDocument
.Ods Feuille de calcul OpenDocument Feuille de calcul OpenDocument
.odp Présentation OpenDocument Présentation OpenDocument
.odg Graphiques OpenDocument Graphiques OpenDocument
.xls Excel (ancien) Feuille de calcul Excel (ancien format)
.xlsx Excel (nouveau) Feuille de calcul Excel (nouveau format)
.ppt PowerPoint (ancien) Présentation PowerPoint (ancien format)
.pptx PowerPoint (nouveau) Présentation PowerPoint (nouveau format)
.doc Word (ancien) document Word (ancien format)
.docx Word (nouveau) document Word (nouveau format)
.csv CSV valeurs Comma-Separated
.txt Texte brut Fichier texte brut
.xml XML Extensible Markup Language
.Md Markdown Fichier Markdown
.rtf Format RTF Format RTF
.tsv Valeurs séparées par des tabulations valeurs Tab-Separated

Types MIME pris en charge

Type MIME Description
text/html Langage HTML (HyperText Markup Language) utilisé pour mettre en forme la structure d’une page web.
text/webviewhtml Type MIME utilisé pour le contenu web rendu dans les contrôles WebView.
text/x-server-parsed-html Documents HTML analysés par le serveur, souvent utilisés pour les services SSI (Server Side Includes).

Limitations

  • Le connecteur ne prend pas en charge les mécanismes d’authentification tels que SAML, le jeton JWT, l’authentification basée sur Forms, etc.
  • Le connecteur ne prend pas en charge l’analyse du contenu dynamique dans les pages web.

Configuration requise

  • Vous devez être l’administrateur de recherche du locataire Microsoft 365 de votre organization.
  • URL de site web : pour vous connecter au contenu de votre site web, vous avez besoin de l’URL du site web. Vous pouvez indexer plusieurs sites web (jusqu’à 50) dans une même connexion.
  • Compte de service (facultatif) : un compte de service n’est nécessaire que lorsque vos sites web nécessitent une authentification. Les sites web publics ne nécessitent pas d’authentification et peuvent être analysés directement. Pour les sites web nécessitant une authentification, il est recommandé d’avoir un compte dédié pour authentifier et analyser le contenu.

Prise en main

Capture d’écran montrant l’écran de création de connexion pour le cloud Microsoft Graph Connector pour les sites web d’entreprise.

1. Nom d’affichage

Un nom d’affichage est utilisé pour identifier chaque citation dans Copilot, ce qui permet aux utilisateurs de reconnaître facilement le fichier ou l’élément associé. Le nom d’affichage indique également le contenu approuvé. Le nom d’affichage est également utilisé comme filtre de source de contenu. Une valeur par défaut est présente pour ce champ, mais vous pouvez la personnaliser avec un nom que les utilisateurs de votre organization reconnaître.

2. URL de site web à indexer

Spécifiez la racine du site web que vous souhaitez analyser. Le connecteur Microsoft Graph cloud sites web d’entreprise utilise cette URL comme point de départ et suivez tous les liens de cette URL pour son analyse. Vous pouvez indexer jusqu’à 50 URL de site différentes dans une même connexion. Dans le champ URL, entrez les URL de site séparées par des virgules (,). Par exemple : https://www.contoso.com,https://www.contosoelectronics.com.

Remarque

Le connecteur commence toujours à analyser à partir de la racine de l’URL. Par exemple, si votre URL fournie est https://www.contoso.com/electronics, le connecteur démarre l’analyse à partir de https://www.contoso.com.

Le connecteur analyse uniquement les pages web dans le domaine des URL racines et ne prend pas en charge l’analyse des URL hors domaine. La redirection n’est prise en charge que dans le même domaine. S’il existe des redirections dans les pages web à analyser, vous pouvez ajouter l’URL redirigée directement dans la liste des URL à analyser.

Utiliser le plan de site pour l’analyse

Lorsqu’il est sélectionné, le connecteur analyse uniquement les URL répertoriées dans le plan de site. Cette option vous permet également de configurer l’analyse incrémentielle lors d’une étape ultérieure. S’il n’est pas sélectionné ou si aucun plan de site n’est trouvé, le connecteur effectue une analyse approfondie de tous les liens trouvés sur l’URL racine du site.

Lorsque cette option est sélectionnée, le robot effectue les étapes suivantes :

a. Le robot recherche le fichier robots.txt à l’emplacement racine. Par exemple, si l’URL fournie est https://www.contoso.com, le robot recherche le fichier robots.txt à l’adresse https://www.contoso.com/robots.txt.

b. Après avoir localisé le fichier robots.txt, le robot trouve les liens de plan de site dans le fichier robots.txt.

c. Le robot analyse ensuite toutes les pages web comme indiqué dans les fichiers de plan de site.

d. En cas d’échec dans l’une des étapes ci-dessus, le robot effectue une analyse approfondie du site web, sans générer d’erreur.

3. Type d’authentification

La méthode d’authentification que vous choisissez s’applique à tous les sites web que vous avez fournis pour indexer dans une connexion. Pour authentifier et synchroniser le contenu des sites web, choisissez l’une des quatre méthodes prises en charge :

a. Aucune
Sélectionnez cette option si vos sites web sont accessibles publiquement sans aucune exigence d’authentification.

b. Authentification de base
Entrez le nom d’utilisateur et le mot de passe de votre compte pour vous authentifier à l’aide de l’authentification de base.

c. SiteMinder
L’authentification siteminder nécessite une URL correctement mise en forme, https://custom_siteminder_hostname/smapi/rest/createsmsessionun nom d’utilisateur et un mot de passe.

d. Microsoft Entra informations d’identification du client OAuth 2.0
OAuth 2.0 avec Microsoft Entra ID nécessite un ID de ressource, un ID client et une clé secrète client.

L’ID de ressource, l’ID client et la clé secrète client dépendent de la façon dont vous avez configuré l’authentification basée sur Microsoft Entra ID pour votre site web. L’une des deux options spécifiées peut convenir à votre site web :

  1. Si vous utilisez une application Microsoft Entra en tant que fournisseur d’identité et application cliente pour accéder au site web, l’ID client et l’ID de ressource sont l’ID d’application de cette application unique, et la clé secrète client est la clé secrète que vous avez générée dans cette application.

    Remarque

    Pour plus d’informations sur la configuration d’une application cliente en tant que fournisseur d’identité, consultez Démarrage rapide : Inscrire une application auprès du Plateforme d'identités Microsoft et Configurer votre application App Service ou Azure Functions pour utiliser Microsoft Entra connexion.

    Une fois l’application cliente configurée, veillez à créer une clé secrète client en accédant à la section Certificats & secrets de l’application. Copiez la valeur de clé secrète client affichée dans la page, car elle n’est plus affichée.

    Dans les captures d’écran suivantes, vous pouvez voir les étapes pour obtenir l’ID client et la clé secrète client, et configurer l’application si vous créez l’application vous-même.

    • Vue des paramètres dans la section Personnalisation :

    • Vue des paramètres dans la section d’authentification :

      Remarque

      Il n’est pas nécessaire d’avoir la route spécifiée ci-dessus pour l’URI de redirection sur votre site web. Seulement si vous utilisez le jeton utilisateur envoyé par Azure sur votre site web pour l’authentification, vous devez disposer de l’itinéraire.

    • Vue de l’ID client dans la section Essentials :

    • Vue de la clé secrète client dans la section Certificats & secrets :

  2. Si vous utilisez une application (première application) comme fournisseur d’identité pour votre site web en tant que ressource et une autre application (deuxième application) pour accéder au site web, l’ID client est l’ID d’application de votre deuxième application et la clé secrète client est le secret configuré dans la deuxième application. Toutefois, l’ID de ressource est l’ID de votre première application.

    Vous n’avez pas besoin de configurer une clé secrète client dans cette application, mais vous devez ajouter un rôle d’application dans la section Rôles d’application, qui est affecté ultérieurement à votre application cliente. Reportez-vous aux images pour savoir comment ajouter un rôle d’application.

    • Création d’un rôle d’application :

    • Modification du nouveau rôle d’application :

      Après avoir configuré l’application de ressources, créez l’application cliente et accordez-lui l’autorisation d’accéder à l’application de ressources en ajoutant le rôle d’application configuré ci-dessus dans les autorisations d’API de l’application cliente.

      Remarque

      Pour savoir comment accorder des autorisations à l’application cliente , consultez Démarrage rapide : Configurer une application cliente pour accéder à une API web.

    Les captures d’écran suivantes montrent la section permettant d’accorder des autorisations à l’application cliente.

    • Ajout d’une autorisation :

    • Sélection des autorisations :

    • Ajout des autorisations :

    Une fois les autorisations attribuées, vous devez créer une clé secrète client pour cette application en accédant à la section Certificats & secrets. Copiez la valeur de clé secrète client affichée sur la page, car elle ne s’affiche plus. Utilisez l’ID d’application de cette application comme ID client, le secret de cette application comme clé secrète client et l’ID d’application de la première application comme ID de ressource.

4. Déployer pour un public limité

Déployez cette connexion sur une base d’utilisateurs limitée si vous souhaitez la valider dans Copilot et d’autres surfaces de recherche avant d’étendre le déploiement à un public plus large. Pour en savoir plus sur le déploiement limité, consultez Déploiement intermédiaire.

À ce stade, vous êtes prêt à créer la connexion pour vos sites web cloud. Vous pouvez cliquer sur Créer pour publier votre connexion et indexer des pages web à partir de vos sites web.

Pour d’autres paramètres, tels que les autorisations d’accès, lesrègles d’inclusion de données, le schéma, la fréquence d’analyse, etc., nous avons des valeurs par défaut basées sur ce qui fonctionne le mieux avec les sites web. Vous pouvez voir les valeurs par défaut ci-dessous :

Utilisateurs Description
Autorisations d’accès Tous les membres de votre organization verront ce contenu
Contenu Description
URL à exclure Aucune
Gérer les propriétés Pour case activée propriétés par défaut et leur schéma, consultez le contenu
Synchronisation Description
Analyse incrémentielle Fréquence : toutes les 15 minutes (prise en charge uniquement avec l’analyse du plan de site)
Analyse complète Fréquence : Tous les jours

Si vous souhaitez modifier l’une de ces valeurs, vous devez choisir l’option « Configuration personnalisée ».

Configuration personnalisée

L’installation personnalisée est destinée aux administrateurs qui souhaitent modifier les valeurs par défaut des paramètres répertoriés dans le tableau ci-dessus. Une fois que vous avez cliqué sur l’option « Configuration personnalisée », trois onglets supplémentaires s’affichent : Utilisateurs, Contenu et Synchronisation.

Utilisateurs

Capture d’écran montrant l’onglet Utilisateurs

Autorisations d’accès

Le connecteur cloud Sites web d’entreprise prend en charge les autorisations de recherche visibles pour tout le monde uniquement. Les données indexées apparaissent dans les résultats de la recherche pour tous les utilisateurs de votre organization.

Contenu

Capture d’écran montrant l’onglet Contenu dans lequel vous pouvez définir des règles d’exclusion et des propriétés

Ajouter des URL à exclure (restrictions d’analyse facultatives)

Il existe deux façons d’empêcher les pages d’être analysées : les interdire dans votre fichier robots.txt ou les ajouter à la liste d’exclusions.

  1. Prise en charge de robots.txt

    Le connecteur vérifie s’il existe un fichier robots.txt pour votre site racine. S’il en existe un, il suit et respecte les instructions trouvées dans ce fichier. Si vous ne souhaitez pas que le connecteur analyse certaines pages ou répertoires sur votre site, incluez les pages ou répertoires dans les déclarations « Interdire » dans votre fichier robots.txt.

  2. Ajouter des URL à exclure

    Vous pouvez éventuellement créer une liste d’exclusion pour exclure certaines URL d’être analysées si ce contenu est sensible ou ne vaut pas la peine d’être analysé. Pour créer une liste d’exclusion, parcourez l’URL racine. Vous pouvez ajouter les URL exclues à la liste pendant le processus de configuration.

Gérer les propriétés

Ici, vous pouvez ajouter ou supprimer des propriétés disponibles à partir de vos sites web, affecter un schéma à la propriété (définir si une propriété peut faire l’objet d’une recherche, s’il est interrogeable, récupérable ou refinable), modifier l’étiquette sémantique et ajouter un alias à la propriété. Les propriétés sélectionnées par défaut sont répertoriées ci-dessous.

Source, propriété Étiquette Description Schéma
des auteurs des auteurs Personnes qui ont participé à l’élément dans la source de données Requête, récupération
Contenu Contenu Tout le contenu texte d’une page web Recherche
CreatedDateTime Date et heure de création Données et heure de création de l’élément dans la source de données Requête, récupération
Description Récupérer, rechercher
FileType Extension de fichier Extension de fichier du contenu analysé Interroger, Affiner, Récupérer
IconURL IconUrl URL de l’icône de la page web Récupérer
LastModifiedBy Auteur de la dernière modification Personne qui a modifié l’élément pour la dernière fois dans la source de données Requête, récupération
LastModifiedDateTime Date et heure de la dernière modification Date et heure de la dernière modification de l’élément dans la source de données. Requête, récupération
Titre Titre Titre de l’élément que vous souhaitez afficher dans Copilot et d’autres expériences de recherche Récupérer, rechercher
URL url URL cible de l’élément dans la source de données Récupérer

Le connecteur cloud site web d’entreprise prend en charge deux types de propriétés sources :

  1. Balise META

    Le connecteur extrait toutes les balises meta que vos URL racine peuvent avoir et les affiche. Vous pouvez sélectionner les balises à inclure pour l’analyse. Une balise sélectionnée est indexée pour toutes les URL fournies, le cas échéant.

    Capture d’écran montrant l’onglet Contenu avec le panneau balises meta

    Les balises meta sélectionnées peuvent être utilisées pour créer des propriétés personnalisées. En outre, dans la page du schéma, vous pouvez les gérer davantage (Interrogeable, Rechercheable, Récupérable, Refinable).

  2. Paramètres de propriété personnalisée

    Vous pouvez enrichir vos données indexées en créant des propriétés personnalisées pour vos balises meta sélectionnées ou les propriétés par défaut du connecteur.

    Capture d’écran montrant l’onglet Contenu avec le panneau de propriétés personnalisées

    Pour ajouter une propriété personnalisée :

    1. Entrez un nom de propriété. Ce nom apparaît dans les résultats de recherche de ce connecteur.
    2. Pour la valeur, sélectionnez Static ou String/Regex Mapping. Une valeur statique est incluse dans tous les résultats de recherche de ce connecteur. Une valeur de chaîne/d’expression régulière varie en fonction des règles que vous ajoutez.
    3. Si vous avez sélectionné une valeur statique, entrez la valeur que vous souhaitez afficher.
    4. Si vous avez sélectionné une valeur String/rRegex :
      • Dans la section Ajouter des expressions , dans la liste Propriété , sélectionnez une propriété ou une balise meta par défaut dans la liste. Pour Exemple de valeur, entrez une chaîne pour représenter le type de valeurs qui peuvent apparaître. Cet exemple est utilisé lorsque vous affichez un aperçu de votre règle. Pour Expression, entrez une expression regex pour définir la partie de la valeur de propriété qui doit apparaître dans les résultats de la recherche. Vous pouvez ajouter jusqu’à trois expressions.
      • Dans la section Créer une formule , entrez une formule pour combiner les valeurs extraites des expressions.

Pour en savoir plus sur les expressions regex, consultez expressions régulières .NET ou recherchez un guide de référence sur les expressions regex sur le web.

Synchronisation

Capture d’écran montrant l’onglet Synchronisation dans lequel vous pouvez configurer la fréquence d’analyse.

L’intervalle d’actualisation détermine la fréquence à laquelle vos données sont synchronisées entre la source de données et l’index du connecteur Graph. Il existe deux types d’intervalles d’actualisation : l’analyse complète et l’analyse incrémentielle. Pour plus d’informations, consultez paramètres d’actualisation.

Vous pouvez modifier les valeurs par défaut de l’intervalle d’actualisation à partir d’ici si vous le souhaitez.

Remarque

L’analyse incrémentielle est prise en charge uniquement lorsque l’option d’analyse du plan de site est sélectionnée.

Résolution des problèmes

Après avoir publié votre connexion, vous pouvez consulter la status sous l’onglet Sources de données dans le Centre d’administration. Pour savoir comment effectuer des mises à jour et des suppressions, consultez Gérer votre connecteur. Vous trouverez les étapes de résolution des problèmes courants ici.

Si vous rencontrez des problèmes ou si vous souhaitez fournir des commentaires, contactez Microsoft Graph | Support.