Ручное вычисление запросов на игровой площадке Azure AI Studio

Внимание

Элементы, обозначенные в этой статье как (предварительная версия), сейчас предлагаются в общедоступной предварительной версии. Эта предварительная версия предоставляется без соглашения об уровне обслуживания, и мы не рекомендуем ее для рабочих нагрузок. Некоторые функции могут не поддерживаться или их возможности могут быть ограничены. Дополнительные сведения см. в статье Дополнительные условия использования Предварительных версий Microsoft Azure.

При начале работы с проектированием запросов необходимо проверить различные входные данные по одному за раз, чтобы оценить эффективность запроса может быть очень трудоемким. Это связано с тем, что важно проверить, работают ли фильтры содержимого соответствующим образом, независимо от того, является ли ответ точным и многое другое.

Чтобы упростить этот процесс, вы можете использовать ручное вычисление в Azure AI Studio, средство оценки, позволяющее непрерывно итерировать запрос на тестовые данные в одном интерфейсе. Вы также можете вручную оценить выходные данные, ответы модели, чтобы помочь вам получить уверенность в запросе.

Ручная оценка поможет вам понять, насколько хорошо выполняется запрос и выполняется итерацию по запросу, чтобы обеспечить достижение требуемого уровня достоверности.

Из этой статьи вы узнаете:

  • Создание результатов оценки вручную
  • Оцените ответы модели
  • Итерацию в запросе и повторное вычисление
  • Сохранение и сравнение результатов
  • Оценка со встроенными метриками

Необходимые компоненты

Чтобы создать результаты оценки вручную, необходимо подготовить следующее:

  • Тестовый набор данных в одном из этих форматов: csv или jsonl. Если у вас нет доступного набора данных, мы также разрешаем вводить данные вручную из пользовательского интерфейса.

  • Развертывание одной из этих моделей: модели GPT 3.5, GPT 4 или Davinci. Дополнительные сведения о создании развертывания см. в статье "Развертывание моделей".

Примечание.

Ручная оценка поддерживается только для моделей Azure OpenAI в настоящее время для типов задач чата и завершения.

Создание результатов оценки вручную

На игровой площадке выберите "Ручная оценка", чтобы начать процесс проверки ответов модели вручную на основе тестовых данных и запроса. Запрос автоматически переходит в оценку вручную, и теперь вам просто нужно добавить тестовые данные для оценки запроса.

Это можно сделать вручную с помощью текстовых полей в столбце входных данных .

Вы также можете импортировать данные , чтобы выбрать один из предыдущих существующих наборов данных в проекте или отправить набор данных в формате CSV или JSONL. После загрузки данных вам будет предложено сопоставить столбцы соответствующим образом. После завершения и выбора импорта данные заполняются соответствующим образом в столбцах ниже.

Снимок экрана: создание результатов ручной оценки.

Примечание.

В оценку вручную можно добавить 50 входных строк. Если тестовые данные имеют более 50 входных строк, мы отправим первые 50 в входном столбце.

Теперь, когда данные добавлены, можно запустить , чтобы заполнить выходной столбец ответом модели.

Оцените ответы модели

Вы можете предоставить отпечаток вверх или вниз для каждого ответа, чтобы оценить выходные данные запроса. Основываясь на предоставленных оценках, вы можете просмотреть эти оценки ответа в кратких сводках.

Снимок экрана: оценки ответов в кратких сводках.

Итерацию в запросе и повторное вычисление

На основе сводки может потребоваться внести изменения в запрос. Для изменения настройки запроса можно использовать указанные выше элементы управления запросом. Это может быть обновление системного сообщения, изменение модели или изменение параметров.

После внесения изменений вы можете повторно запустить все, чтобы обновить всю таблицу или сосредоточиться на повторном запуске определенных строк, которые не соответствовали вашим ожиданиям в первый раз.

Сохранение и сравнение результатов

После заполнения результатов можно сохранить результаты , чтобы поделиться прогрессом с командой или продолжить оценку вручную, где вы оставили его позже.

Снимок экрана: результаты сохранения.

Кроме того, можно сравнить отпечатки вверх и вниз по разным оценкам вручную, сохранив их и просмотрев на вкладке "Оценка" в разделе "Оценка вручную".

Следующие шаги

Узнайте больше о том, как оценить созданные приложения ИИ:

Узнайте больше о методах устранения вреда.