Connecteur Microsoft Graph cloud sites web d’entreprise
Le connecteur Microsoft Graph cloud Sites web d’entreprise permet à vos organization d’indexer des pages web et du contenu à partir de sites web appartenant à votre entreprise ou de sites web publics sur Internet. Après avoir configuré le connecteur et indexé le contenu du site web, les utilisateurs finaux peuvent rechercher ce contenu dans Recherche Microsoft et Microsoft 365 Copilot.
Cet article est destiné aux administrateurs Microsoft 365 ou à toute personne qui configure, exécute et surveille un connecteur Microsoft Graph cloud sites web d’entreprise.
Importante
Vous pouvez utiliser le connecteur Microsoft Graph Site web d’entreprise local pour indexer des sites web hébergés localement ou sur des clouds privés.
Fonctionnalités
- Indexer des pages web à partir de sites web accessibles dans le cloud.
- Indexer jusqu’à 50 sites web dans une même connexion.
- Exclure les pages web de l’analyse à l’aide de règles d’exclusion.
- Utilisez la recherche sémantique dans Copilot pour permettre aux utilisateurs de trouver du contenu pertinent.
Types de fichiers pris en charge
File Extension | Type de fichier | Description |
---|---|---|
Portable Document Format | ||
.Odt | Texte OpenDocument | Document texte OpenDocument |
.Ods | Feuille de calcul OpenDocument | Feuille de calcul OpenDocument |
.odp | Présentation OpenDocument | Présentation OpenDocument |
.odg | Graphiques OpenDocument | Graphiques OpenDocument |
.xls | Excel (ancien) | Feuille de calcul Excel (ancien format) |
.xlsx | Excel (nouveau) | Feuille de calcul Excel (nouveau format) |
.ppt | PowerPoint (ancien) | Présentation PowerPoint (ancien format) |
.pptx | PowerPoint (nouveau) | Présentation PowerPoint (nouveau format) |
.doc | Word (ancien) | document Word (ancien format) |
.docx | Word (nouveau) | document Word (nouveau format) |
.csv | CSV | valeurs Comma-Separated |
.txt | Texte brut | Fichier texte brut |
.xml | XML | Extensible Markup Language |
.Md | Markdown | Fichier Markdown |
.rtf | Format RTF | Format RTF |
.tsv | Valeurs séparées par des tabulations | valeurs Tab-Separated |
Types MIME pris en charge
Type MIME | Description |
---|---|
text/html | Langage HTML (HyperText Markup Language) utilisé pour mettre en forme la structure d’une page web. |
text/webviewhtml | Type MIME utilisé pour le contenu web rendu dans les contrôles WebView. |
text/x-server-parsed-html | Documents HTML analysés par le serveur, souvent utilisés pour les services SSI (Server Side Includes). |
Limitations
- Le connecteur ne prend pas en charge les mécanismes d’authentification tels que SAML, le jeton JWT, l’authentification basée sur Forms, etc.
- Le connecteur ne prend pas en charge l’analyse du contenu dynamique dans les pages web.
Configuration requise
- Vous devez être l’administrateur de recherche du locataire Microsoft 365 de votre organization.
- URL de site web : pour vous connecter au contenu de votre site web, vous avez besoin de l’URL du site web. Vous pouvez indexer plusieurs sites web (jusqu’à 50) dans une même connexion.
- Compte de service (facultatif) : un compte de service n’est nécessaire que lorsque vos sites web nécessitent une authentification. Les sites web publics ne nécessitent pas d’authentification et peuvent être analysés directement. Pour les sites web nécessitant une authentification, il est recommandé d’avoir un compte dédié pour authentifier et analyser le contenu.
Prise en main
1. Nom d’affichage
Un nom d’affichage est utilisé pour identifier chaque citation dans Copilot, ce qui permet aux utilisateurs de reconnaître facilement le fichier ou l’élément associé. Le nom d’affichage indique également le contenu approuvé. Le nom d’affichage est également utilisé comme filtre de source de contenu. Une valeur par défaut est présente pour ce champ, mais vous pouvez la personnaliser avec un nom que les utilisateurs de votre organization reconnaître.
2. URL de site web à indexer
Spécifiez la racine du site web que vous souhaitez analyser. Le connecteur Microsoft Graph cloud sites web d’entreprise utilise cette URL comme point de départ et suivez tous les liens de cette URL pour son analyse. Vous pouvez indexer jusqu’à 50 URL de site différentes dans une même connexion. Dans le champ URL, entrez les URL de site séparées par des virgules (,). Par exemple : https://www.contoso.com,https://www.contosoelectronics.com
.
Remarque
Le connecteur commence toujours à analyser à partir de la racine de l’URL. Par exemple, si votre URL fournie est https://www.contoso.com/electronics
, le connecteur démarre l’analyse à partir de https://www.contoso.com
.
Le connecteur analyse uniquement les pages web dans le domaine des URL racines et ne prend pas en charge l’analyse des URL hors domaine. La redirection n’est prise en charge que dans le même domaine. S’il existe des redirections dans les pages web à analyser, vous pouvez ajouter l’URL redirigée directement dans la liste des URL à analyser.
Utiliser le plan de site pour l’analyse
Lorsqu’il est sélectionné, le connecteur analyse uniquement les URL répertoriées dans le plan de site. Cette option vous permet également de configurer l’analyse incrémentielle lors d’une étape ultérieure. S’il n’est pas sélectionné ou si aucun plan de site n’est trouvé, le connecteur effectue une analyse approfondie de tous les liens trouvés sur l’URL racine du site.
Lorsque cette option est sélectionnée, le robot effectue les étapes suivantes :
a. Le robot recherche le fichier robots.txt à l’emplacement racine. Par exemple, si l’URL fournie est https://www.contoso.com
, le robot recherche le fichier robots.txt à l’adresse https://www.contoso.com/robots.txt
.
b. Après avoir localisé le fichier robots.txt, le robot trouve les liens de plan de site dans le fichier robots.txt.
c. Le robot analyse ensuite toutes les pages web comme indiqué dans les fichiers de plan de site.
d. En cas d’échec dans l’une des étapes ci-dessus, le robot effectue une analyse approfondie du site web, sans générer d’erreur.
3. Type d’authentification
La méthode d’authentification que vous choisissez s’applique à tous les sites web que vous avez fournis pour indexer dans une connexion. Pour authentifier et synchroniser le contenu des sites web, choisissez l’une des quatre méthodes prises en charge :
a.
Aucune
Sélectionnez cette option si vos sites web sont accessibles publiquement sans aucune exigence d’authentification.
b.
Authentification de base
Entrez le nom d’utilisateur et le mot de passe de votre compte pour vous authentifier à l’aide de l’authentification de base.
c.
SiteMinder
L’authentification siteminder nécessite une URL correctement mise en forme, https://custom_siteminder_hostname/smapi/rest/createsmsession
un nom d’utilisateur et un mot de passe.
d.
Microsoft Entra informations d’identification du client OAuth 2.0
OAuth 2.0 avec Microsoft Entra ID nécessite un ID de ressource, un ID client et une clé secrète client.
L’ID de ressource, l’ID client et la clé secrète client dépendent de la façon dont vous avez configuré l’authentification basée sur Microsoft Entra ID pour votre site web. L’une des deux options spécifiées peut convenir à votre site web :
Si vous utilisez une application Microsoft Entra en tant que fournisseur d’identité et application cliente pour accéder au site web, l’ID client et l’ID de ressource sont l’ID d’application de cette application unique, et la clé secrète client est la clé secrète que vous avez générée dans cette application.
Remarque
Pour plus d’informations sur la configuration d’une application cliente en tant que fournisseur d’identité, consultez Démarrage rapide : Inscrire une application auprès du Plateforme d'identités Microsoft et Configurer votre application App Service ou Azure Functions pour utiliser Microsoft Entra connexion.
Une fois l’application cliente configurée, veillez à créer une clé secrète client en accédant à la section Certificats & secrets de l’application. Copiez la valeur de clé secrète client affichée dans la page, car elle n’est plus affichée.
Dans les captures d’écran suivantes, vous pouvez voir les étapes pour obtenir l’ID client et la clé secrète client, et configurer l’application si vous créez l’application vous-même.
Vue des paramètres dans la section Personnalisation :
Vue des paramètres dans la section d’authentification :
Remarque
Il n’est pas nécessaire d’avoir la route spécifiée ci-dessus pour l’URI de redirection sur votre site web. Seulement si vous utilisez le jeton utilisateur envoyé par Azure sur votre site web pour l’authentification, vous devez disposer de l’itinéraire.
Vue de l’ID client dans la section Essentials :
Vue de la clé secrète client dans la section Certificats & secrets :
Si vous utilisez une application (première application) comme fournisseur d’identité pour votre site web en tant que ressource et une autre application (deuxième application) pour accéder au site web, l’ID client est l’ID d’application de votre deuxième application et la clé secrète client est le secret configuré dans la deuxième application. Toutefois, l’ID de ressource est l’ID de votre première application.
Remarque
Pour connaître les étapes de configuration d’une application cliente en tant que fournisseur d’identité, consultez Démarrage rapide : Inscrire une application avec le Plateforme d'identités Microsoft et Configurer votre application App Service ou Azure Functions pour utiliser Microsoft Entra connexion.
Vous n’avez pas besoin de configurer une clé secrète client dans cette application, mais vous devez ajouter un rôle d’application dans la section Rôles d’application, qui est affecté ultérieurement à votre application cliente. Reportez-vous aux images pour savoir comment ajouter un rôle d’application.
Création d’un rôle d’application :
Modification du nouveau rôle d’application :
Après avoir configuré l’application de ressources, créez l’application cliente et accordez-lui l’autorisation d’accéder à l’application de ressources en ajoutant le rôle d’application configuré ci-dessus dans les autorisations d’API de l’application cliente.
Remarque
Pour savoir comment accorder des autorisations à l’application cliente , consultez Démarrage rapide : Configurer une application cliente pour accéder à une API web.
Les captures d’écran suivantes montrent la section permettant d’accorder des autorisations à l’application cliente.
Ajout d’une autorisation :
Sélection des autorisations :
Ajout des autorisations :
Une fois les autorisations attribuées, vous devez créer une clé secrète client pour cette application en accédant à la section Certificats & secrets. Copiez la valeur de clé secrète client affichée sur la page, car elle ne s’affiche plus. Utilisez l’ID d’application de cette application comme ID client, le secret de cette application comme clé secrète client et l’ID d’application de la première application comme ID de ressource.
4. Déployer pour un public limité
Déployez cette connexion sur une base d’utilisateurs limitée si vous souhaitez la valider dans Copilot et d’autres surfaces de recherche avant d’étendre le déploiement à un public plus large. Pour en savoir plus sur le déploiement limité, consultez Déploiement intermédiaire.
À ce stade, vous êtes prêt à créer la connexion pour vos sites web cloud. Vous pouvez cliquer sur Créer pour publier votre connexion et indexer des pages web à partir de vos sites web.
Pour d’autres paramètres, tels que les autorisations d’accès, lesrègles d’inclusion de données, le schéma, la fréquence d’analyse, etc., nous avons des valeurs par défaut basées sur ce qui fonctionne le mieux avec les sites web. Vous pouvez voir les valeurs par défaut ci-dessous :
Utilisateurs | Description |
---|---|
Autorisations d’accès | Tous les membres de votre organization verront ce contenu |
Contenu | Description |
---|---|
URL à exclure | Aucune |
Gérer les propriétés | Pour case activée propriétés par défaut et leur schéma, consultez le contenu |
Synchronisation | Description |
---|---|
Analyse incrémentielle | Fréquence : toutes les 15 minutes (prise en charge uniquement avec l’analyse du plan de site) |
Analyse complète | Fréquence : Tous les jours |
Si vous souhaitez modifier l’une de ces valeurs, vous devez choisir l’option « Configuration personnalisée ».
Configuration personnalisée
L’installation personnalisée est destinée aux administrateurs qui souhaitent modifier les valeurs par défaut des paramètres répertoriés dans le tableau ci-dessus. Une fois que vous avez cliqué sur l’option « Configuration personnalisée », trois onglets supplémentaires s’affichent : Utilisateurs, Contenu et Synchronisation.
Utilisateurs
Autorisations d’accès
Le connecteur cloud Sites web d’entreprise prend en charge les autorisations de recherche visibles pour tout le monde uniquement. Les données indexées apparaissent dans les résultats de la recherche pour tous les utilisateurs de votre organization.
Contenu
Ajouter des URL à exclure (restrictions d’analyse facultatives)
Il existe deux façons d’empêcher les pages d’être analysées : les interdire dans votre fichier robots.txt ou les ajouter à la liste d’exclusions.
Prise en charge de robots.txt
Le connecteur vérifie s’il existe un fichier robots.txt pour votre site racine. S’il en existe un, il suit et respecte les instructions trouvées dans ce fichier. Si vous ne souhaitez pas que le connecteur analyse certaines pages ou répertoires sur votre site, incluez les pages ou répertoires dans les déclarations « Interdire » dans votre fichier robots.txt.
Ajouter des URL à exclure
Vous pouvez éventuellement créer une liste d’exclusion pour exclure certaines URL d’être analysées si ce contenu est sensible ou ne vaut pas la peine d’être analysé. Pour créer une liste d’exclusion, parcourez l’URL racine. Vous pouvez ajouter les URL exclues à la liste pendant le processus de configuration.
Gérer les propriétés
Ici, vous pouvez ajouter ou supprimer des propriétés disponibles à partir de vos sites web, affecter un schéma à la propriété (définir si une propriété peut faire l’objet d’une recherche, s’il est interrogeable, récupérable ou refinable), modifier l’étiquette sémantique et ajouter un alias à la propriété. Les propriétés sélectionnées par défaut sont répertoriées ci-dessous.
Source, propriété | Étiquette | Description | Schéma |
---|---|---|---|
des auteurs | des auteurs | Personnes qui ont participé à l’élément dans la source de données | Requête, récupération |
Contenu | Contenu | Tout le contenu texte d’une page web | Recherche |
CreatedDateTime | Date et heure de création | Données et heure de création de l’élément dans la source de données | Requête, récupération |
Description | Récupérer, rechercher | ||
FileType | Extension de fichier | Extension de fichier du contenu analysé | Interroger, Affiner, Récupérer |
IconURL | IconUrl | URL de l’icône de la page web | Récupérer |
LastModifiedBy | Auteur de la dernière modification | Personne qui a modifié l’élément pour la dernière fois dans la source de données | Requête, récupération |
LastModifiedDateTime | Date et heure de la dernière modification | Date et heure de la dernière modification de l’élément dans la source de données. | Requête, récupération |
Titre | Titre | Titre de l’élément que vous souhaitez afficher dans Copilot et d’autres expériences de recherche | Récupérer, rechercher |
URL | url | URL cible de l’élément dans la source de données | Récupérer |
Le connecteur cloud site web d’entreprise prend en charge deux types de propriétés sources :
Balise META
Le connecteur extrait toutes les balises meta que vos URL racine peuvent avoir et les affiche. Vous pouvez sélectionner les balises à inclure pour l’analyse. Une balise sélectionnée est indexée pour toutes les URL fournies, le cas échéant.
Les balises meta sélectionnées peuvent être utilisées pour créer des propriétés personnalisées. En outre, dans la page du schéma, vous pouvez les gérer davantage (Interrogeable, Rechercheable, Récupérable, Refinable).
Paramètres de propriété personnalisée
Vous pouvez enrichir vos données indexées en créant des propriétés personnalisées pour vos balises meta sélectionnées ou les propriétés par défaut du connecteur.
Pour ajouter une propriété personnalisée :
- Entrez un nom de propriété. Ce nom apparaît dans les résultats de recherche de ce connecteur.
- Pour la valeur, sélectionnez Static ou String/Regex Mapping. Une valeur statique est incluse dans tous les résultats de recherche de ce connecteur. Une valeur de chaîne/d’expression régulière varie en fonction des règles que vous ajoutez.
- Si vous avez sélectionné une valeur statique, entrez la valeur que vous souhaitez afficher.
- Si vous avez sélectionné une valeur String/rRegex :
- Dans la section Ajouter des expressions , dans la liste Propriété , sélectionnez une propriété ou une balise meta par défaut dans la liste. Pour Exemple de valeur, entrez une chaîne pour représenter le type de valeurs qui peuvent apparaître. Cet exemple est utilisé lorsque vous affichez un aperçu de votre règle. Pour Expression, entrez une expression regex pour définir la partie de la valeur de propriété qui doit apparaître dans les résultats de la recherche. Vous pouvez ajouter jusqu’à trois expressions.
- Dans la section Créer une formule , entrez une formule pour combiner les valeurs extraites des expressions.
Pour en savoir plus sur les expressions regex, consultez expressions régulières .NET ou recherchez un guide de référence sur les expressions regex sur le web.
Synchronisation
L’intervalle d’actualisation détermine la fréquence à laquelle vos données sont synchronisées entre la source de données et l’index du connecteur Graph. Il existe deux types d’intervalles d’actualisation : l’analyse complète et l’analyse incrémentielle. Pour plus d’informations, consultez paramètres d’actualisation.
Vous pouvez modifier les valeurs par défaut de l’intervalle d’actualisation à partir d’ici si vous le souhaitez.
Remarque
L’analyse incrémentielle est prise en charge uniquement lorsque l’option d’analyse du plan de site est sélectionnée.
Résolution des problèmes
Après avoir publié votre connexion, vous pouvez consulter la status sous l’onglet Sources de données dans le Centre d’administration. Pour savoir comment effectuer des mises à jour et des suppressions, consultez Gérer votre connecteur. Vous trouverez les étapes de résolution des problèmes courants ici.
Si vous rencontrez des problèmes ou si vous souhaitez fournir des commentaires, contactez Microsoft Graph | Support.