Preparación de datos para el análisis de sentimiento personalizado

Para crear un modelo de análisis de sentimientos personalizado, necesitará datos de calidad para entrenarlo. En este artículo se explica cómo seleccionar y preparar los datos, además de definir un esquema. Definir el esquema es el primer paso del ciclo de vida de desarrollo del proyecto, y en él se definen las clases en las que el modelo debe clasificar el texto en tiempo de ejecución.

Selección de datos

La calidad de los datos con los que entrena el modelo afecta enormemente al rendimiento del modelo.

  • Use datos de la vida real que reflejen el espacio de problemas del dominio para entrenar de forma eficaz el modelo. Puede usar datos sintéticos para acelerar el proceso de entrenamiento del modelo inicial, pero probablemente serán diferentes de los datos reales y harán que el modelo sea menos eficaz cuando se use.

  • Equilibra la distribución de datos tanto como sea posible sin desviarse de la distribución en la vida real.

  • Use diversos datos siempre que sea posible para evitar el sobreajuste del modelo. Una menor diversidad en los datos de entrenamiento puede dar lugar a correlaciones falsas del aprendizaje del modelo que pueden no existir en los datos de la vida real.

  • Evite los documentos duplicados en los datos. Los datos duplicados tienen un efecto negativo en el proceso de entrenamiento, las métricas del modelo y el rendimiento del modelo.

  • Considere de dónde proceden los datos. Si va a recopilar datos de una persona, departamento o parte de su escenario, es probable que falte la diversidad que puede ser importante para que su modelo conozca.

Nota:

Si los documentos van a estar en varios idiomas, seleccione la opción de varios idiomas en la creación del proyecto y establezca la opción de idioma en el idioma de la mayoría de los documentos.

Preparación de datos

Como requisito previo para crear un proyecto de análisis de opinión personalizado, sus datos de entrenamiento deben cargarse en un contenedor de blobs en su cuenta de almacenamiento. Puede crear y cargar documentos de entrenamiento desde Azure directamente o mediante la herramienta Explorador de Azure Storage. La herramienta Explorador de Azure Storage permite cargar más datos rápidamente.

Solo puede usar archivos .txt documentos para texto personalizado. Si los datos están en otro formato, puede usar el comando de análisis CLUtils para cambiar el formato del archivo.

Conjunto de pruebas

Al definir el conjunto de pruebas, asegúrese de incluir documentos de ejemplo que no estén presentes en el conjunto de entrenamiento. La definición del conjunto de pruebas es un paso importante para calcular el rendimiento del modelo. Además, asegúrese de que el conjunto de pruebas incluya documentos que representen todas las clases usadas en el proyecto.

Pasos siguientes

Si aún no lo ha hecho, cree un proyecto de análisis de sentimiento personalizado. Si es la primera vez que usa el análisis de opinión personalizado, considere la posibilidad de seguir el inicio rápido para crear un proyecto de ejemplo. También puede ver los requisitos del proyecto para obtener más detalles sobre lo que necesita para crear un proyecto.