Démarrage rapide : Créer une base de connaissances dans le portail Azure

Dans ce guide de démarrage rapide, vous créez une base de connaissances qui sert de référentiel pour la sortie créée à partir d’un pipeline d’enrichissement par IA dans Azure Search AI. Une base de connaissances produit du contenu généré qui est disponible dans Azure Storage pour des charges de travail autres que la recherche.

Tout d’abord, vous configurez des exemples de données dans le stockage Azure. Vous allez ensuite exécuter l’Assistant Importation de données pour créer un pipeline d’enrichissement qui génère aussi une base de connaissances. La base de connaissances contient le contenu de texte d’origine extrait de la source de données (évaluations d’un hôtel par les clients), plus le contenu généré par l’IA, qui comprend une étiquette de sentiment, l’extraction d’expressions clés et la traduction textuelle des commentaires des clients non anglophones.

Prérequis

Avant de commencer, vous devez disposer des prérequis suivants :

Ce guide de démarrage rapide utilise également Azure AI services pour l’enrichissement par IA. Parce que la charge de travail est si petite, Azure AI services est exploité en coulisses pour un traitement gratuit jusqu’à 20 transactions. Cela signifie que vous pouvez effectuer cet exercice sans créer une ressource multiservice Azure AI supplémentaire.

Démarrer l’Assistant

  1. Connectez-vous au portail Azure avec votre compte Azure.

  2. Trouvez votre service de recherche. Ensuite, dans la page Vue d’ensemble, cliquez sur Importer des données dans la barre de commandes pour créer une base de connaissances en quatre étapes.

    Capture d’écran de la commande Importer des données

Étape 1 : Création d'une source de données

Comme les données sont constituées de plusieurs lignes dans un fichier CSV, définissez le mode d’analyse pour obtenir un document de recherche pour chaque ligne.

  1. Dans Connexion à vos données, choisissez Stockage Blob Azure.

  2. Pour le nom, entrez « hotel-reviews-ds ».

  3. Pour Données à extraire, choisissez Contenu et métadonnées.

  4. Pour Mode d’analyse, sélectionnez Texte délimité, puis cochez la case La première ligne contient l’en-tête. Vérifiez que le Caractère délimiteur est une virgule (,).

  5. Dans Chaîne de connexion, choisissez une connexion existante si le compte de stockage se trouve dans le même abonnement. Sinon, collez une chaîne de connexion à votre compte Stockage Azure.

    Une chaîne de connexion peut avoir un accès complet, avec le format suivant : DefaultEndpointsProtocol=https;AccountName=<YOUR-ACCOUNT-NAME>;AccountKey=<YOUR-ACCOUNT-KEY>;EndpointSuffix=core.windows.net

    Ou une chaîne de connexion peut faire référence à une identité managée, en supposant qu’elle est configurée et affectée à un rôle dans Stockage Azure : ResourceId=/subscriptions/<YOUR-SUBSCRIPTION-ID>/resourceGroups/<YOUR-RESOURCE-GROUP-NAME>/providers/Microsoft.Storage/storageAccounts/<YOUR-ACCOUNT-NAME>;

  6. Dans Conteneurs, entrez le nom du conteneur de blobs contenant les données (« hotel-reviews »).

    Votre page doit ressembler à la capture d’écran suivante.

    Capture d’écran de la définition de la source de données

  7. Passez à la page suivante.

Étape 2 : Ajouter des compétences

Dans cette étape de l’Assistant, ajoutez des compétences pour l’enrichissement par IA. Les données sources sont constituées des évaluations des clients en anglais et en français. Les compétences pertinentes pour ce jeu de données incluent l’extraction d’expressions clés, la détection de sentiments et la traduction de texte. Dans une étape ultérieure, ces enrichissements seront « projetés » dans une base de connaissances en tant que tables Azure.

  1. Développez Attacher Azure AI services. Gratuit (enrichissements limités) est sélectionné par défaut. Vous pouvez utiliser cette ressource, car le nombre d’enregistrements dans HotelReviews-Free.csv est de 19, et cette ressource gratuite autorise jusqu’à 20 transactions par jour.

  2. Développez Ajouter des enrichissements.

  3. Pour Nom de l’ensemble de compétences, entrez « hotel-reviews-ss ».

  4. Pour Champ de données source, sélectionnez reviews_text.

  5. Pour Niveau de précision d’enrichissement, sélectionnez Pages (segments de 5 000 caractères) .

  6. Pour Compétences cognitives de texte, sélectionnez les compétences suivantes :

    • Extraire des expressions clés
    • Traduire le texte
    • Détection de la langue
    • Détecter le sentiment

    Votre page doit ressembler à la capture d’écran suivante :

    Capture d’écran de la définition des ensembles de compétences

  7. Faites défiler vers le bas et développez Enregistrer les enrichissements dans une base de connaissances.

  8. Sélectionnez Choisir une connexion existante, puis sélectionnez un compte Stockage Azure. La page Conteneurs s’affiche pour vous permettre de créer un conteneur pour les projections. Nous vous recommandons d’adopter une convention d’affectation de noms avec un préfixe, telle que « kstore-hotel-reviews », afin de faire la distinction entre le contenu source et le contenu de la base de connaissances.

  9. En revenant à l’Assistant d’importation de données, sélectionnez les projections de table Azure suivantes. L’Assistant propose toujours la projection Documents. D’autres projections seront proposées en fonction des compétences que vous sélectionnez (comme Expressions clés) ou de la granularité d’enrichissement (Pages) :

    • Documents
    • Pages
    • Phrases clés

    La capture d’écran suivante montre les sélections de projections de table dans l’Assistant.

    Capture d’écran de la définition de la base de connaissances

  10. Passez à la page suivante.

Étape 3 : Configurer l’index

Dans cette étape de l’Assistant, configurez un index pour d’éventuelles requêtes de recherche en texte intégral. Vous n’avez pas besoin d’index de recherche pour une base de connaissances, mais l’indexeur en a besoin pour s’exécuter.

Dans cette étape, l’Assistant va échantillonner votre source de données pour en déduire des champs et des types de données. Il vous suffit de sélectionner les attributs correspondant au comportement souhaité. Par exemple, l’attribut Récupérable permet au service de recherche de retourner une valeur de champ, alors que l’attribut Possibilité de recherche active la recherche en texte intégral sur le champ.

  1. Pour Nom d’index, entrez « hotel-reviews-idx ».

  2. Pour les attributs, acceptez les sélections par défaut : Récupérable et Possibilité de recherche pour les champs que le pipeline crée.

    Votre index doit ressembler à l’image suivante. Dans la mesure où la liste est longue, tous les champs ne sont pas visibles dans l’image.

    Capture d’écran de la définition de l’index

  3. Passez à la page suivante.

Étape 4 : Configurer et exécuter l’indexeur

Dans cette étape de l’Assistant, configurez un indexeur qui doit rassembler la source de données, l’ensemble de compétences et l’index que vous avez définis dans les étapes précédentes de l’Assistant.

  1. Pour Nom, entrez « hotel-reviews-idxr ».

  2. Pour Planification, conservez la valeur par défaut Une fois.

  3. Cliquez sur Envoyer pour exécuter l’indexeur. Les opérations d’extraction de données, d’indexation et d’application des compétences cognitives se produisent toutes à cette étape.

Étape 5 : Vérifier l’état

Dans la page Vue d’ensemble, ouvrez l’onglet Indexeurs au milieu de la page, puis sélectionnez hotels-reviews-idxr. Au bout d’une ou deux minutes, l’état doit passer de « En cours » à « Réussite », sans aucune erreur ni avertissement.

Vérifier les tables dans le portail Azure

  1. Dans le portail Azure, ouvrez le compte Stockage utilisé pour créer la base de connaissances.

  2. Dans le volet de navigation gauche du compte de stockage, sélectionnez Navigateur de stockage pour afficher les nouvelles tables.

    Vous devez voir trois tables, une pour chaque projection proposée dans la section « Enregistrer les enrichissements » de la page « Ajouter des enrichissements ».

    • « hotelReviewssDocuments » contient tous les nœuds de premier niveau de l’arborescence d’enrichissement d’un document, qui ne sont pas des collections.

    • « hotelReviewssKeyPhrases » contient une longue liste des expressions clés extraites de toutes les évaluations. Les compétences qui produisent des collections (tableaux), comme des expressions et des entités clés, auront une sortie dans une table autonome.

    • « hotelReviewssPages » contient des champs enrichis créés sur chaque page ayant été séparée du document. Dans cet ensemble de compétences et cette source de données, les enrichissements au niveau des pages sont constitués d’étiquettes de sentiment et de texte traduit. Une table de pages (ou une table de phrases si vous spécifiez ce niveau particulier de granularité) est créée lorsque vous choisissez la granularité « pages » dans la définition de l’ensemble de compétences.

Toutes ces tables contiennent des colonnes d’ID pour prendre en charge les relations entre tables dans d’autres outils et applications. Quand vous ouvrez une table, faites défiler au-delà de ces champs pour voir les champs de contenu ajoutés par le pipeline.

Dans ce démarrage rapide, la table pour « hotelReviewssPages » doit ressembler à la capture d’écran suivante :

Capture d’écran des tables générées dans Navigateur de stockage

Nettoyage

Lorsque vous travaillez dans votre propre abonnement, il est recommandé, à la fin de chaque projet, de déterminer si vous avez toujours besoin des ressources que vous avez créées. Les ressources laissées en cours d’exécution peuvent vous coûter de l’argent. Vous pouvez supprimer les ressources une par une, ou choisir de supprimer le groupe de ressources afin de supprimer l’ensemble des ressources.

Vous pouvez rechercher et gérer les ressources dans le portail à l’aide des liens Toutes les ressources ou Groupes de ressources situés dans le volet de navigation de gauche.

Si vous utilisez un service gratuit, n'oubliez pas que vous êtes limité à trois index, indexeurs et sources de données. Vous pouvez supprimer des éléments un par un dans le portail pour ne pas dépasser la limite.

Conseil

Si vous voulez répéter cet exercice ou essayer une autre procédure pas à pas d’enrichissement par IA, supprimez l’indexeur hotel-reviews-idxr et les objets associés pour les recréer. La suppression de l’indexeur remet le compteur de transactions quotidiennes gratuites à zéro.

Étapes suivantes

Maintenant qu’une base de données vous a été présentée, examinez plus en détail chaque étape en passant à la procédure pas à pas de l’API REST. Les tâches gérées en interne par l’Assistant sont expliquées dans la procédure pas à pas REST.