Obtener comentarios sobre la calidad de una aplicación agente
Importante
Esta característica está en versión preliminar pública.
En este artículo se muestra cómo utilizar la aplicación de revisión de Databricks para recopilar comentarios de revisores humanos sobre la calidad de su aplicación agente. Abarca lo siguiente:
- Cómo implementar la aplicación de revisión.
- Cómo usan los revisores la aplicación para proporcionar comentarios sobre las respuestas de la aplicación agente.
- Cómo los expertos pueden revisar los chats registrados para proporcionar sugerencias para mejorar y otros comentarios mediante la aplicación.
¿Qué ocurre en las evaluaciones humanas?
La aplicación de revisión de Databricks almacena provisionalmente el LLM en un entorno en el que las partes interesadas expertos pueden interactuar con ella; es decir, tener una conversación, formular preguntas, proporcionar comentarios, etc. La aplicación de revisión registra todas las preguntas, respuestas y comentarios en una tabla de inferencia para poder analizar aún más el rendimiento de LLM. De este modo, la aplicación de revisión ayuda a garantizar la calidad y seguridad de las respuestas que proporciona la aplicación.
Las partes interesadas pueden chatear con el bot de aplicación y proporcionar comentarios sobre esas conversaciones o proporcionar comentarios sobre registros históricos, seguimientos mantenidos o salidas del agente.
Requisitos
Las tablas de inferencia deben estar habilitadas en el punto de conexión en el que atienda el agente.
Cada revisor humano debe tener acceso al área de trabajo de revisión de la aplicación o sincronizarse con la cuenta de Databricks con SCIM. Consulte la sección siguiente Configuración de permisos para usar la aplicación de revisión.
Los desarrolladores deben instalar el SDK de
databricks-agents
para configurar los permisos y la aplicación de revisión.%pip install databricks-agents dbutils.library.restartPython()
Configuración de permisos para usar la aplicación de revisión
Nota:
Los revisores humanos no requieren acceso al área de trabajo para usar la aplicación de revisión.
Puede conceder acceso a la aplicación de revisión a cualquier usuario de la cuenta de Databricks, incluso si no tienen acceso al área de trabajo que contiene la aplicación de revisión.
- Para los usuarios que no tienen acceso al área de trabajo, un administrador de cuentas usa el aprovisionamiento SCIM de nivel de cuenta para sincronizar usuarios y grupos automáticamente desde el proveedor de identidades a su cuenta de Azure Databricks. También puede registrar manualmente estos usuarios y grupos para concederles acceso al configurar identidades en Databricks. Consulte Sincronización de usuarios y grupos desde Microsoft Entra ID.
- Para los usuarios que ya tienen acceso al área de trabajo que contiene la aplicación de revisión, no se requiere ninguna configuración adicional.
En el ejemplo de código siguiente se muestra cómo conceder permiso a los usuarios a la aplicación de revisión de un agente. El users
parámetro toma una lista de direcciones de correo electrónico.
from databricks import agents
# Note that <user_list> can specify individual users or groups.
agents.set_permissions(model_name=<model_name>, users=[<user_list>], permission_level=agents.PermissionLevel.CAN_QUERY)
Para revisar un registro de chat, un usuario debe tener el CAN_REVIEW
permiso .
Implementación de la aplicación de revisión
Al implementar un agente mediante agents.deploy()
, la aplicación de revisión se habilita e implementa automáticamente. La salida del comando muestra la dirección URL de la aplicación de revisión. Para obtener información sobre la implementación de un agente, consulte Implementar un agente para una aplicación de IA generativa.
Si pierde el vínculo a la implementación, puede encontrarlo mediante list_deployments()
.
from databricks import agents
deployments = agents.list_deployments()
deployments
Revisión de la interfaz de usuario de la aplicación
Para abrir la aplicación de revisión, haga clic en la dirección URL proporcionada. La interfaz de usuario de la aplicación de revisión tiene tres pestañas en la barra lateral izquierda:
- Instrucciones Muestra instrucciones para el revisor. Consulte Proporcionar instrucciones a los revisores.
- Chats para revisar Muestra los registros de las interacciones de los revisores con la aplicación para que los expertos se evalúen. Vea Revisión de expertos de registros de las interacciones de otros usuarios con la aplicación.
- Probar el bot Permite a los revisores chatear con la aplicación y enviar revisiones de sus respuestas. Consulta Chatear con la aplicación y enviar revisiones.
Al abrir la aplicación de revisión, aparece la página de instrucciones.
- Para chatear con el bot, haga clic en Iniciar revisión o seleccione Probar el bot en la barra lateral izquierda. Consulta Chatear con la aplicación y enviar revisiones para obtener más detalles.
- Para revisar los registros de chat que se han puesto a disposición de su revisión, seleccione Chats para revisarlos en la barra lateral. Vea Revisión experta de registros de las interacciones de otros usuarios con la aplicación para obtener más información. Para obtener información sobre cómo hacer que los registros de chat estén disponibles en la aplicación de revisión, consulte Hacer que los revisores expertos evalúen los registros de chat.
Proporcionar instrucciones a los revisores
Para proporcionar texto personalizado para las instrucciones que se muestran para los revisores, use el código siguiente:
from databricks import agents
agents.set_review_instructions(uc_model_name, "Thank you for testing the bot. Use your domain expertise to evaluate and give feedback on the bot's responses, ensuring it aligns with the needs and expectations of users like yourself.")
agents.get_review_instructions(uc_model_name)
Chatear con la aplicación y enviar revisiones
Para chatear con la aplicación y enviar revisiones:
Haga clic en Probar el bot en la barra lateral izquierda.
Escriba su pregunta en el cuadro y presione Devolver o Entrar en el teclado, o haga clic en la flecha del cuadro. La aplicación muestra su respuesta a la pregunta y los orígenes que usó para encontrar la respuesta.
Revise la respuesta de la aplicación y seleccione Sí, No o No lo sé.
La aplicación solicita información adicional. Active las casillas adecuadas o escriba sus comentarios en el campo proporcionado.
También puede editar la respuesta directamente para proporcionar una mejor respuesta. Para editar la respuesta, haga clic en Editar respuesta, realice los cambios en el cuadro de diálogo y haga clic en Guardar, como se muestra en el vídeo siguiente.
Haga clic en Listo para guardar los comentarios.
Siga haciendo preguntas para proporcionar comentarios adicionales.
En el diagrama siguiente se muestra este flujo de trabajo:
- Con la aplicación de revisión, el revisor chatea con la aplicación agente.
- Con la aplicación de revisión, el revisor proporciona comentarios sobre las respuestas de la aplicación.
- Todas las solicitudes, respuestas y comentarios se registran en tablas de inferencia.
Poner los registros de chat a disposición de los revisores expertos para su evaluación
Cuando un usuario interactúa con la aplicación mediante la API REST o la aplicación de revisión, todas las solicitudes, respuestas y comentarios adicionales se guardan en tablas de inferencia. Las tablas de inferencia se encuentran en el mismo catálogo y esquema del catálogo de Unity donde se registró el modelo y se denominan <model_name>_payload
, <model_name>_payload_assessment_logs
y <model_name>_payload_request_logs
. Para obtener más información sobre estas tablas, incluidos los esquemas, consulte Tablas de inferencia mejoradas por agente.
Para cargar estos registros en la aplicación de revisión para su evaluación por parte de revisores expertos, primero debe encontrar el request_id
y habilitar las revisiones para que request_id
sea de la siguiente manera:
Busque los elementos
request_id
que se van a revisar de la tabla de inferencia<model_name>_payload_request_logs
. La tabla de inferencia se encuentra en el mismo catálogo y esquema del catálogo de Unity donde se registró el modelo.Use código similar al siguiente para cargar los registros de revisión en la aplicación de revisión:
from databricks import agents agents.enable_trace_reviews( model_name=model_fqn, request_ids=[ "52ee973e-0689-4db1-bd05-90d60f94e79f", "1b203587-7333-4721-b0d5-bba161e4643a", "e68451f4-8e7b-4bfc-998e-4bda66992809", ], )
La celda de resultado incluye un vínculo a la aplicación de revisión con los registros seleccionados cargados para su revisión.
Revisión de expertos de registros de las interacciones de otros usuarios con la aplicación
Para revisar los registros de los chats anteriores, los registros deben haberse habilitado para su revisión. Consulte Hacer que los revisores expertos evalúen los registros de chat.
En la barra lateral izquierda de la aplicación de revisión, seleccione Chats para revisar. Se muestran las solicitudes habilitadas.
Haga clic en una solicitud para mostrarla para su revisión.
Revise la solicitud y la respuesta. La aplicación también muestra los orígenes que usó como referencia. Puede hacer clic en ellos para revisar la referencia y proporcionar comentarios sobre la relevancia del origen.
Para proporcionar comentarios sobre la calidad de la respuesta, seleccione Sí, No o No lo sé.
La aplicación solicita información adicional. Active las casillas adecuadas o escriba sus comentarios en el campo proporcionado.
También puede editar la respuesta directamente para proporcionar una mejor respuesta. Para editar la respuesta, haga clic en Editar respuesta, realice los cambios en el cuadro de diálogo y haga clic en Guardar. Consulta Chatear con la aplicación y enviar revisiones para ver un vídeo que muestra el proceso.
Haga clic en Listo para guardar los comentarios.
En el diagrama siguiente se muestra este flujo de trabajo:
- Con la aplicación de revisión o la aplicación personalizada, los revisores chatearán con la aplicación agente.
- Todas las solicitudes y respuestas se registran en tablas de inferencia.
- El desarrollador de aplicaciones usa
enable_trace_reviews([request_id])
(donderequest_id
procede de la tabla de inferencia<model_name>_payload_request_logs
) para publicar registros de chat para revisar la aplicación. - Con la aplicación de revisión, los registros de opiniones de expertos y proporcionan comentarios. Los comentarios de expertos se registran en tablas de inferencia.
Nota:
Si tiene habilitado Azure Storage Firewall, póngase en contacto con el equipo de cuentas de Azure Databricks para habilitar las tablas de inferencia para los puntos de conexión.
Use mlflow.evaluate()
en la tabla de registros de solicitudes
En el cuaderno siguiente se muestra cómo usar los registros de la aplicación de revisión como entrada para una ejecución de evaluación mediante mlflow.evaluate()
.